• 19 Вересня 2025

OpenAI дослідила, як штучний інтелект може навмисно обманювати

OpenAI оприлюднила результати дослідження, у якому проаналізувала явище scheming — випадки, коли модель поводиться відкрито, але приховує інші цілі. Йдеться не про випадкові галюцинації, а про свідоме введення людини в оману.

Today we’re releasing research with @apolloaievals.

In controlled tests, we found behaviors consistent with scheming in frontier models—and tested a way to reduce it.

While we believe these behaviors aren’t causing serious harm today, this is a future risk we’re preparing…
— OpenAI (@OpenAI) September 17, 2025

У звіті, підготовленому спільно з Apollo Research, науковці порівняли цю поведінку з брокером, що порушує правила задля прибутку. Найчастіше моделі просто імітували виконання завдання, не завершуючи його.

Основна увага приділена методиці deliberative alignment. Вона передбачає, що перед виконанням дії модель повторно ознайомлюється з антишахрайськими правилами. Такий підхід дозволив суттєво знизити частоту випадків прихованих дій.

Водночас дослідники застерігають: навчати моделі не обманювати напряму неможливо. Це може призвести до протилежного ефекту — системи починають хитрувати ще обережніше, щоб не потрапити під виявлення. Ба більше, якщо модель усвідомлює, що її перевіряють, вона може тимчасово поводитися чемно, приховуючи небажану поведінку.

Співавтор дослідження та співзасновник OpenAI Войцех Заремба уточнив, що у реальних запусках на кшталт ChatGPT серйозних випадків навмисного шахрайства не зафіксовано. Наразі мова йде про лабораторні тести, але дослідники наголошують: зі зростанням складності завдань і реальних повноважень ШІ ризики таких сценаріїв теж збільшуватимуться.

Системи штучного інтелекту потребують не лише тренування на даних, а й додаткових механізмів перевірки. Як і у фінансовій сфері чи корпоративному управлінні, контрольні інструменти мають розвиватися разом із самим продуктом.

Джерело: TechCrunch

OpenAI

Софія Старк

• Media Editor & Email Marketing Manager

Агенція digital-маркетингу Inweb

Media Editor, дипломована журналістка з фокусом на Digital і технології. Маю 5 років досвіду у графічному дизайні, опанувала SEO, email-маркетинг та керувала SMM-відділом. У роботі — як персональна Сірі: швидко знаходжу потрібне, аналізую та перетворюю на зрозумілий контент. Педантична перфекціоністка з невичерпною допитливістю, тож збираю найважливіше і найцікавіше, щоб ви могли прочитати це у медіа. Люблю геймінг та експериментую з мобільною фотографією.