• 25 Квітня 2025

Anthropic планує навчитися пояснювати рішення ШІ-моделей до 2027 року

Даріо Амодей, генеральний директор Anthropic, опублікував есе, в якому заявив про намір до 2027 року створити методи, що дозволять виявляти й пояснювати більшість помилок у роботі великих мовних моделей. За його словами, зростання можливостей ШІ випереджає розуміння їхньої внутрішньої логіки, що створює серйозні ризики.

У чому проблема

Сучасні ШІ-моделі працюють не за чітко заданими інструкціями, а на основі аналізу великих обсягів даних. Дослідники не можуть пояснити, чому модель вибирає ті чи інші слова, як вона приймає рішення або чому припускається помилок. Ця непрозорість робить неможливим контроль за поведінкою ШІ у сферах фінансів, безпеки чи біологічних досліджень — критичних галузях.

Anthropic працює над механістичною інтерпретованістю — підходом, що дозволяє ідентифікувати внутрішні елементи моделі, які відповідають за конкретні дії. У моделі Claude 3 Sonnet компанія виявила понад 30 мільйонів таких ознак. Вони дозволяють простежити, як модель формує відповіді, на основі яких понять і зв’язків.

Практичні кроки

Anthropic уже застосовує інтерпретованість у тестуванні моделей. У внутрішньому експерименті команда навмисно ввела в модель помилку, а інші команди мали її виявити. Частина з них успішно скористалася інструментами інтерпретації для аналізу поведінки системи.

Мета Anthropic — створити технологічну процедуру, що дозволить перевіряти ШІ-моделі перед використанням, виявляючи потенційні ризики — від нестабільної поведінки до неправдивих відповідей. Компанія також розробляє методи впливу на виявлені ознаки, що дозволяє керувати реакціями моделі.

Що пропонує Амодей

Науковцям та компаніям — активніше інвестувати в дослідження інтерпретованості, оскільки це ключ до безпечного розвитку ШІ.
Урядам — запровадити вимоги до прозорості у сфері безпеки ШІ, а також експортний контроль для збереження технологічної переваги демократичних країн.
Галузі загалом — сформувати спільний підхід до пояснення рішень моделей, щоб запобігти неконтрольованому використанню потужних систем.

Anthropic хоче зробити роботу мовних моделей зрозумілою ще до того, як вони стануть критично важливими для економіки, науки та держав загалом. Амодей вважає, що така прозорість має стати умовою їх подальшого розвитку.

Джерело: Darioamodei

Ринки

Софія Старк

• Media Editor & Email Marketing Manager

Агенція digital-маркетингу Inweb

Media Editor, дипломована журналістка з фокусом на Digital і технології. Маю 5 років досвіду у графічному дизайні, опанувала SEO, email-маркетинг та керувала SMM-відділом. У роботі — як персональна Сірі: швидко знаходжу потрібне, аналізую та перетворюю на зрозумілий контент. Педантична перфекціоністка з невичерпною допитливістю, тож збираю найважливіше і найцікавіше, щоб ви могли прочитати це у медіа. Люблю геймінг та експериментую з мобільною фотографією.

Більше цікавого

Новини

Південна Корея проводить міжнародний саміт щодо використання штучного інтелекту у військовій сфері 10 Вересня 2024

Новини

Google відкриє доступ до погодинної статистики пошуку за 8 днів через API 21 Березня 2025

Новини

Артем Бородатюк бере участь у благодійному аукціоні зустрічей «Прихистки добра» — разом із ще 23 видатними українцями 19 Травня 2025

Новини

Бренд Loro Piana потрапив під нагляд суду після побиття працівника у підрядному цеху 16 Липня 2025

Новини

ЄС відкриє центр для оскарження модерації контенту у Facebook, TikTok і YouTube 9 Жовтня 2024

Новини

Застосунок «Повітряна тривога» отримав нагороду European Excellence Awards 2024 11 Грудня 2024