Anthropic планує навчитися пояснювати рішення ШІ-моделей до 2027 року

Даріо Амодей, генеральний директор Anthropic, опублікував есе, в якому заявив про намір до 2027 року створити методи, що дозволять виявляти й пояснювати більшість помилок у роботі великих мовних моделей. За його словами, зростання можливостей ШІ випереджає розуміння їхньої внутрішньої логіки, що створює серйозні ризики.
У чому проблема
Сучасні ШІ-моделі працюють не за чітко заданими інструкціями, а на основі аналізу великих обсягів даних. Дослідники не можуть пояснити, чому модель вибирає ті чи інші слова, як вона приймає рішення або чому припускається помилок. Ця непрозорість робить неможливим контроль за поведінкою ШІ у сферах фінансів, безпеки чи біологічних досліджень — критичних галузях.
Anthropic працює над механістичною інтерпретованістю — підходом, що дозволяє ідентифікувати внутрішні елементи моделі, які відповідають за конкретні дії. У моделі Claude 3 Sonnet компанія виявила понад 30 мільйонів таких ознак. Вони дозволяють простежити, як модель формує відповіді, на основі яких понять і зв’язків.
Практичні кроки
Anthropic уже застосовує інтерпретованість у тестуванні моделей. У внутрішньому експерименті команда навмисно ввела в модель помилку, а інші команди мали її виявити. Частина з них успішно скористалася інструментами інтерпретації для аналізу поведінки системи.
Що пропонує Амодей
- Науковцям та компаніям — активніше інвестувати в дослідження інтерпретованості, оскільки це ключ до безпечного розвитку ШІ.
- Урядам — запровадити вимоги до прозорості у сфері безпеки ШІ, а також експортний контроль для збереження технологічної переваги демократичних країн.
- Галузі загалом — сформувати спільний підхід до пояснення рішень моделей, щоб запобігти неконтрольованому використанню потужних систем.
Anthropic хоче зробити роботу мовних моделей зрозумілою ще до того, як вони стануть критично важливими для економіки, науки та держав загалом. Амодей вважає, що така прозорість має стати умовою їх подальшого розвитку.
Джерело: Darioamodei