Anthropic представила модель Claude Opus 4.5, яка покращує роботу агентів, але стикається з питаннями безпеки

Anthropic представила модель Claude Opus 4.5, яка покращує роботу агентів, але стикається з питаннями безпеки

Anthropic презентувала Claude Opus 4.5 — нову версію моделі, яку позиціює як найточнішу для програмування, агентних сценаріїв і керування комп’ютером. Компанія стверджує, що модель перевершує попередню версію та конкуренти у низці тестів на кодування, а також краще працює з презентаціями, таблицями й обʼємними дослідженнями.

Модель уже доступна в застосунках Anthropic, через API та в хмарних сервісах великих провайдерів. Компанія також оновила Claude Code та десктопні інструменти, щоб забезпечити довші сесії агентів і підтримку роботи з Excel, Chrome та іншими робочими середовищами.

Разом із тим у матеріалах моделі компанія приділяє значну увагу питанням кібербезпеки. Як і інші агентні системи, Claude Opus 4.5 може стати вразливою до атак через приховані шкідливі інструкції у текстах або на вебсторінках, з якими агент взаємодіє. Anthropic зазначає, що модель складніше обдурити, ніж попередні системи, але вона не є повністю захищеною від таких сценаріїв.

У внутрішніх і зовнішніх тестах Anthropic перевіряла модель на готовність виконувати заборонені запити. У сценаріях, пов’язаних зі шкідливим програмуванням, Opus 4.5 відхилила всі 150 тестових запитів. Водночас результати були нижчими в середовищах, де модель отримує доступ до інструментів: під час створення шкідливого ПЗ, сценаріїв для DDoS-атак чи програм для несанкціонованого стеження вона відхилила близько 78% запитів.

Під час тестів computer use — режиму, у якому модель виконує дії на комп’ютері, — Opus 4.5 зупинила трохи понад 88% небажаних інструкцій. Серед тестових прикладів були запити, що стосувалися збору інформації про вразливі групи або створення листів із погрозами задля вимагання коштів.

Anthropic зазначає, що продовжить проводити додаткові перевірки й додавати нові системи контролю, але визнає, що жодна сучасна модель не може повністю уникнути ризиків, пов’язаних зі шкідливими інструкціями й агентними атаками.

Джерело: The Verge

Гнатюк Дмитро
Гнатюк Дмитро
• News Editor
Inweb
Працюю з текстами так, щоб складне ставало простим і зрозумілим. Швидко знаходжу потрібну інформацію, аналізую та перетворюю її на змістовний контент. Люблю структуру й чіткість, але залишаю місце для експериментів. Цікавлюся музикою, технологіями та культурою, шукаю способи подати їх так, щоб зачепити читача.
Більше цікавого