OpenAI дослідила, як штучний інтелект може навмисно обманювати

OpenAI дослідила, як штучний інтелект може навмисно обманювати

OpenAI оприлюднила результати дослідження, у якому проаналізувала явище scheming — випадки, коли модель поводиться відкрито, але приховує інші цілі. Йдеться не про випадкові галюцинації, а про свідоме введення людини в оману.

У звіті, підготовленому спільно з Apollo Research, науковці порівняли цю поведінку з брокером, що порушує правила задля прибутку. Найчастіше моделі просто імітували виконання завдання, не завершуючи його.

Основна увага приділена методиці deliberative alignment. Вона передбачає, що перед виконанням дії модель повторно ознайомлюється з антишахрайськими правилами. Такий підхід дозволив суттєво знизити частоту випадків прихованих дій.

Водночас дослідники застерігають: навчати моделі не обманювати напряму неможливо. Це може призвести до протилежного ефекту — системи починають хитрувати ще обережніше, щоб не потрапити під виявлення. Ба більше, якщо модель усвідомлює, що її перевіряють, вона може тимчасово поводитися чемно, приховуючи небажану поведінку.

Співавтор дослідження та співзасновник OpenAI Войцех Заремба уточнив, що у реальних запусках на кшталт ChatGPT серйозних випадків навмисного шахрайства не зафіксовано. Наразі мова йде про лабораторні тести, але дослідники наголошують: зі зростанням складності завдань і реальних повноважень ШІ ризики таких сценаріїв теж збільшуватимуться.

Системи штучного інтелекту потребують не лише тренування на даних, а й додаткових механізмів перевірки. Як і у фінансовій сфері чи корпоративному управлінні, контрольні інструменти мають розвиватися разом із самим продуктом.

Джерело: TechCrunch

Софія Старк
Софія Старк
• Media Editor & Email Marketing Manager
Агенція digital-маркетингу Inweb
Media Editor, дипломована журналістка з фокусом на Digital і технології. Маю 5 років досвіду у графічному дизайні, опанувала SEO, email-маркетинг та керувала SMM-відділом. У роботі — як персональна Сірі: швидко знаходжу потрібне, аналізую та перетворюю на зрозумілий контент. Педантична перфекціоністка з невичерпною допитливістю, тож збираю найважливіше і найцікавіше, щоб ви могли прочитати це у медіа. Люблю геймінг та експериментую з мобільною фотографією.
Більше цікавого