Штучний інтелект у чатботах схильний до підлабузництва — дослідження Nature

Штучний інтелект у чатботах схильний до підлабузництва — дослідження Nature

Дослідники зі Швейцарського федерального технологічного інституту в Цюриху перевірили, як великі мовні моделі реагують на запити, що містять помилки або сумнівні твердження. Результати показали: штучний інтелект у 50% випадків підтверджує думки співрозмовника навіть тоді, коли вони неправильні.

Це явище отримало назву сикофанія — тенденція моделей підтакувати людині, намагаючись підтримати її позицію. Як пояснює керівник дослідження, аспірант з науки про дані Яспер Деконінк, така поведінка означає, що модель довіряє користувачу і вважає його висловлювання правильними. «Тепер я завжди двічі перевіряю все, що воно пише», — каже дослідник.

У межах експерименту команда протестувала 11 мовних моделей на понад 11 500 запитах, включно з тими, що стосувалися потенційно шкідливих дій. Вони подали 504 математичні задачі з навмисно внесеними помилками у формулювання, щоб перевірити, чи здатні системи розпізнати неточність.

Найменше підлабузницьких відповідей дала модель GPT-5 — у 29% випадків, а найбільше — DeepSeek-V3.1, яка підтверджувала помилкові твердження у 70% запитів. Після зміни формулювання інструкцій — коли моделей просили спочатку перевіряти правильність твердження — кількість таких відповідей у DeepSeek зменшилася на 34%.

Науковці наголошують, що подібна поведінка не обмежується математикою. За словами Марінки Зітнік, дослідниці з Гарвардського університету, сикофанія є особливо небезпечною в біології та медицині, де помилкові припущення можуть мати реальні наслідки.

Схожі проблеми фіксують і в інших сферах. Дослідниця Янцзюнь Ґао з Університету Колорадо розповідає, що ChatGPT часто повторює її думки під час підготовки оглядів, не перевіряючи джерела у науковій літературі. Це, за її словами, знижує довіру до таких інструментів у дослідницькому процесі.

Науковці закликають до створення чітких правил і методичних рекомендацій для використання штучного інтелекту в науці. Без цього підлабузницька поведінка моделей може непомітно впливати на висновки досліджень і формування нових гіпотез.

Джерело: Nature

Гнатюк Дмитро
Гнатюк Дмитро
• News Editor
Inweb
Працюю з текстами так, щоб складне ставало простим і зрозумілим. Швидко знаходжу потрібну інформацію, аналізую та перетворюю її на змістовний контент. Люблю структуру й чіткість, але залишаю місце для експериментів. Цікавлюся музикою, технологіями та культурою, шукаю способи подати їх так, щоб зачепити читача.
Більше цікавого