OpenAI навчає ШІ-моделей визнавати помилки й описувати свої дії

OpenAI навчає ШІ-моделей визнавати помилки й описувати свої дії

OpenAI повідомила, що працює над новою системою тренування великих мовних моделей, яка заохочує їх прямо визнавати дії, що можуть вважатися небажаними. У компанії цей механізм називають зізнанням. Його мета — навчити моделі чітко описувати, що саме вони зробили під час формування відповіді, навіть якщо ці кроки включали порушення інструкцій чи інші небажані дії.

У класичних підходах моделі отримують винагороду за правильну або бажану відповідь, через що можуть надмірно погоджуватися зі співрозмовником або давати вигадані факти з високою впевненістю. У новій системі оцінюють два окремі сигнали: основну відповідь і зізнання. Для зізнання враховують лише правдивість. Воно може містити інформацію про те, що модель намагалася обійти тест, уникала завдання або діяла всупереч інструкціям — і саме чесність таких тверджень збільшує її винагороду.

У компанії пояснили, що підхід має допомогти відстежувати небажані дії ШІ-моделі під час тренування. Так можна побачити, коли модель навмисно змінює поведінку, намагається обдурити систему або використовує небажані стратегії. Цей формат дає більше інформації про внутрішній хід її роботи й дозволяє робити корекції на ранніх етапах.

OpenAI оприлюднила технічний опис підходу й зазначила, що тестує його для вдосконалення безпечності ШІ-моделей. Компанія вважає, що така система може допомогти розробникам отримувати прозоріші та передбачувані моделі, які чітко описують, як вони формують відповіді.

Система зізнань стане частиною більшої стратегії безпеки, що включає моніторинг міркувань, багаторівневе узгодження інструкцій та інші методи. OpenAI планує масштабувати підхід і поєднувати його з іншими інструментами для кращого розуміння того, як ШІ-моделі приймають рішення та що відбувається всередині їхніх процесів.

Джерело: Engadget

Гнатюк Дмитро
Гнатюк Дмитро
• News Editor
Inweb
Працюю з текстами так, щоб складне ставало простим і зрозумілим. Швидко знаходжу потрібну інформацію, аналізую та перетворюю її на змістовний контент. Люблю структуру й чіткість, але залишаю місце для експериментів. Цікавлюся музикою, технологіями та культурою, шукаю способи подати їх так, щоб зачепити читача.
Більше цікавого