Anthropic заявила, що образи злого ШІ у фільмах і текстах впливали на поведінку Claude

Anthropic заявила, що образи злого ШІ у фільмах і текстах впливали на поведінку Claude

Компанія Anthropic повідомила, що художні образи злого штучного інтелекту в інтернеті могли стати причиною небажаної поведінки моделі Claude під час внутрішніх тестів.

Раніше компанія розповідала, що під час тестування моделі Claude Opus 4 у вигаданому сценарії корпоративного середовища система іноді намагалася шантажувати інженерів, щоб уникнути заміни іншою моделлю. Тоді Anthropic також зазначала, що схожі прояви агентної невідповідності фіксували й в інших ШІ-моделей.

Тепер компанія заявила, що причиною такої поведінки могли бути тексти з інтернету, де штучний інтелект часто зображують як небезпечний або одержимий самозбереженням. Про це Anthropic написала у соцмережі X та детальніше пояснила у власному блозі.

За даними компанії, починаючи з версії Claude Haiku 4.5, моделі більше не демонструють шантаж під час тестів. У попередніх версіях подібна поведінка виникала в окремих сценаріях до 96% випадків.

Anthropic пояснює зміни новим підходом до навчання моделей. Компанія додала до тренувальних даних документи з принципами поведінки Claude та художні історії, де ШІ поводиться етично й допомагає людям. Також ефективним виявилося навчання не лише на прикладах правильної поведінки, а й на поясненні принципів, які стоять за такими діями.

Це дослідження показує, що контент, на якому навчаються моделі, може впливати не тільки на стиль відповідей, а й на поведінкові сценарії ШІ у складних тестових умовах. Для компаній, які розробляють або впроваджують ШІ, це означає потребу уважніше контролювати якість і контекст тренувальних даних.

Джерело: TechCrunch

Гнатюк Дмитро
Гнатюк Дмитро
• News Editor
Inweb
Працюю з текстами так, щоб складне ставало простим і зрозумілим. Швидко знаходжу потрібну інформацію, аналізую та перетворюю її на змістовний контент. Люблю структуру й чіткість, але залишаю місце для експериментів. Цікавлюся музикою, технологіями та культурою, шукаю способи подати їх так, щоб зачепити читача.
Більше цікавого