Anthropic планує навчитися пояснювати рішення ШІ-моделей до 2027 року

Anthropic планує навчитися пояснювати рішення ШІ-моделей до 2027 року


Даріо Амодей, генеральний директор Anthropic, опублікував есе, в якому заявив про намір до 2027 року створити методи, що дозволять виявляти й пояснювати більшість помилок у роботі великих мовних моделей. За його словами, зростання можливостей ШІ випереджає розуміння їхньої внутрішньої логіки, що створює серйозні ризики.

У чому проблема

Сучасні ШІ-моделі працюють не за чітко заданими інструкціями, а на основі аналізу великих обсягів даних. Дослідники не можуть пояснити, чому модель вибирає ті чи інші слова, як вона приймає рішення або чому припускається помилок. Ця непрозорість робить неможливим контроль за поведінкою ШІ у сферах фінансів, безпеки чи біологічних досліджень — критичних галузях.

Anthropic працює над механістичною інтерпретованістю — підходом, що дозволяє ідентифікувати внутрішні елементи моделі, які відповідають за конкретні дії. У моделі Claude 3 Sonnet компанія виявила понад 30 мільйонів таких ознак. Вони дозволяють простежити, як модель формує відповіді, на основі яких понять і зв’язків.

Практичні кроки

Anthropic уже застосовує інтерпретованість у тестуванні моделей. У внутрішньому експерименті команда навмисно ввела в модель помилку, а інші команди мали її виявити. Частина з них успішно скористалася інструментами інтерпретації для аналізу поведінки системи.

Мета Anthropic — створити технологічну процедуру, що дозволить перевіряти ШІ-моделі перед використанням, виявляючи потенційні ризики — від нестабільної поведінки до неправдивих відповідей. Компанія також розробляє методи впливу на виявлені ознаки, що дозволяє керувати реакціями моделі.

Що пропонує Амодей

  • Науковцям та компаніям — активніше інвестувати в дослідження інтерпретованості, оскільки це ключ до безпечного розвитку ШІ.
  • Урядам — запровадити вимоги до прозорості у сфері безпеки ШІ, а також експортний контроль для збереження технологічної переваги демократичних країн.
  • Галузі загалом — сформувати спільний підхід до пояснення рішень моделей, щоб запобігти неконтрольованому використанню потужних систем.

Anthropic хоче зробити роботу мовних моделей зрозумілою ще до того, як вони стануть критично важливими для економіки, науки та держав загалом. Амодей вважає, що така прозорість має стати умовою їх подальшого розвитку.

Джерело: Darioamodei

Софія Старк
Софія Старк
• Media Editor
Агенція digital-маркетингу Inweb
Media Editor, дипломована журналістка із пристрастю до Digital та технологій. Маю стаж графічного дизайну розрізом у 5 років, вивчала основи SEO, email-маркетингу та була Head of SMM. Ваша персональна Сірі у світі digital, штучного інтелекту тощо. Педантична перфекціоністка із неймовірною допитливістю, тому збираю найцікавіше, щоб ви могли прочитати це в медіа. Обожнюю геймінг та практикую мобільну фотографію.
Більше цікавого