Anthropic заявила, що образи злого ШІ у фільмах і текстах впливали на поведінку Claude
Компанія Anthropic повідомила, що художні образи злого штучного інтелекту в інтернеті могли стати причиною небажаної поведінки моделі Claude під час внутрішніх тестів.
Раніше компанія розповідала, що під час тестування моделі Claude Opus 4 у вигаданому сценарії корпоративного середовища система іноді намагалася шантажувати інженерів, щоб уникнути заміни іншою моделлю. Тоді Anthropic також зазначала, що схожі прояви агентної невідповідності фіксували й в інших ШІ-моделей.
За даними компанії, починаючи з версії Claude Haiku 4.5, моделі більше не демонструють шантаж під час тестів. У попередніх версіях подібна поведінка виникала в окремих сценаріях до 96% випадків.
Anthropic пояснює зміни новим підходом до навчання моделей. Компанія додала до тренувальних даних документи з принципами поведінки Claude та художні історії, де ШІ поводиться етично й допомагає людям. Також ефективним виявилося навчання не лише на прикладах правильної поведінки, а й на поясненні принципів, які стоять за такими діями.
Це дослідження показує, що контент, на якому навчаються моделі, може впливати не тільки на стиль відповідей, а й на поведінкові сценарії ШІ у складних тестових умовах. Для компаній, які розробляють або впроваджують ШІ, це означає потребу уважніше контролювати якість і контекст тренувальних даних.
Джерело: TechCrunch