• 4 Грудня 2025

OpenAI навчає ШІ-моделей визнавати помилки й описувати свої дії

OpenAI повідомила, що працює над новою системою тренування великих мовних моделей, яка заохочує їх прямо визнавати дії, що можуть вважатися небажаними. У компанії цей механізм називають зізнанням. Його мета — навчити моделі чітко описувати, що саме вони зробили під час формування відповіді, навіть якщо ці кроки включали порушення інструкцій чи інші небажані дії.

У класичних підходах моделі отримують винагороду за правильну або бажану відповідь, через що можуть надмірно погоджуватися зі співрозмовником або давати вигадані факти з високою впевненістю. У новій системі оцінюють два окремі сигнали: основну відповідь і зізнання. Для зізнання враховують лише правдивість. Воно може містити інформацію про те, що модель намагалася обійти тест, уникала завдання або діяла всупереч інструкціям — і саме чесність таких тверджень збільшує її винагороду.

У компанії пояснили, що підхід має допомогти відстежувати небажані дії ШІ-моделі під час тренування. Так можна побачити, коли модель навмисно змінює поведінку, намагається обдурити систему або використовує небажані стратегії. Цей формат дає більше інформації про внутрішній хід її роботи й дозволяє робити корекції на ранніх етапах.

OpenAI оприлюднила технічний опис підходу й зазначила, що тестує його для вдосконалення безпечності ШІ-моделей. Компанія вважає, що така система може допомогти розробникам отримувати прозоріші та передбачувані моделі, які чітко описують, як вони формують відповіді.

Система зізнань стане частиною більшої стратегії безпеки, що включає моніторинг міркувань, багаторівневе узгодження інструкцій та інші методи. OpenAI планує масштабувати підхід і поєднувати його з іншими інструментами для кращого розуміння того, як ШІ-моделі приймають рішення та що відбувається всередині їхніх процесів.

Джерело: Engadget

OpenAI

Гнатюк Дмитро

• News Editor

Inweb

Працюю з текстами так, щоб складне ставало простим і зрозумілим. Швидко знаходжу потрібну інформацію, аналізую та перетворюю її на змістовний контент. Люблю структуру й чіткість, але залишаю місце для експериментів. Цікавлюся музикою, технологіями та культурою, шукаю способи подати їх так, щоб зачепити читача.

Більше цікавого

Новини

Perplexity інтегрує рекламу на платформу — компанія запевняє у збереженні об’єктивності 13 Листопада 2024

Новини

YouTube змінює спосіб підрахунку переглядів Shorts 27 Березня 2025

Новини

Duolingo вбив свого талісмана, а популярність застосунку зросла 19 Лютого 2025

Новини

YouTube запускає рекламу Take a Break у стримах і відкриває доступ до списків підписників 26 Березня 2025

Новини

Google оновлює алгоритм для боротьби зі спамом у пошуковій видачі 27 Серпня 2025

Новини

Apple може отримати права на трансляцію Формули-1 у США з 2026 року 9 Липня 2025