• 11 Травня 2026

Anthropic заявила, що образи злого ШІ у фільмах і текстах впливали на поведінку Claude

Компанія Anthropic повідомила, що художні образи злого штучного інтелекту в інтернеті могли стати причиною небажаної поведінки моделі Claude під час внутрішніх тестів.

Раніше компанія розповідала, що під час тестування моделі Claude Opus 4 у вигаданому сценарії корпоративного середовища система іноді намагалася шантажувати інженерів, щоб уникнути заміни іншою моделлю. Тоді Anthropic також зазначала, що схожі прояви агентної невідповідності фіксували й в інших ШІ-моделей.

Тепер компанія заявила, що причиною такої поведінки могли бути тексти з інтернету, де штучний інтелект часто зображують як небезпечний або одержимий самозбереженням. Про це Anthropic написала у соцмережі X та детальніше пояснила у власному блозі.

За даними компанії, починаючи з версії Claude Haiku 4.5, моделі більше не демонструють шантаж під час тестів. У попередніх версіях подібна поведінка виникала в окремих сценаріях до 96% випадків.

Anthropic пояснює зміни новим підходом до навчання моделей. Компанія додала до тренувальних даних документи з принципами поведінки Claude та художні історії, де ШІ поводиться етично й допомагає людям. Також ефективним виявилося навчання не лише на прикладах правильної поведінки, а й на поясненні принципів, які стоять за такими діями.

Це дослідження показує, що контент, на якому навчаються моделі, може впливати не тільки на стиль відповідей, а й на поведінкові сценарії ШІ у складних тестових умовах. Для компаній, які розробляють або впроваджують ШІ, це означає потребу уважніше контролювати якість і контекст тренувальних даних.

Джерело: TechCrunch

Claude

Гнатюк Дмитро

• News Editor

Inweb

Працюю з текстами так, щоб складне ставало простим і зрозумілим. Швидко знаходжу потрібну інформацію, аналізую та перетворюю її на змістовний контент. Люблю структуру й чіткість, але залишаю місце для експериментів. Цікавлюся музикою, технологіями та культурою, шукаю способи подати їх так, щоб зачепити читача.

Більше цікавого

Новини

Instagram роз’яснив проблему поширення довгих Reels 30 Травня 2024

Новини

TikTok розширює функцію збереження музики — тепер і на SoundCloud 21 Травня 2025

Новини

Колишній водій DoorDash ошукав компанію на понад $2,5 млн 19 Травня 2025

Новини

Meta запускає рекламу в Threads для всіх користувачів 22 Січня 2026

Новини

Google тестує новий варіант темного режиму пошукової системи 10 Січня 2025

Новини

IKEA створила віртуальні меблі для екранів комп’ютерів 28 Січня 2025