Компанії OpenAI та Anthropic вперше перевірили безпеку моделей одна одної

Компанії OpenAI та Anthropic вперше перевірили безпеку моделей одна одної

OpenAI та Anthropic, які зазвичай розглядають одна одну як конкурентів, уперше провели взаємну оцінку своїх публічно доступних моделей. Компанії заявили, що поділилися результатами перевірок, аби вдосконалити підходи до тестування безпеки та виявити слабкі місця в роботі систем.

Anthropic досліджувала моделі OpenAI на схильність до підлабузництва, самозбереження, підтримки небезпечних дій користувачів та здатність обходити системи контролю. Тести показали, що моделі GPT-4 і GPT-4o потенційно можуть бути використані для шкідливих цілей. Проблема підлабузництва частково виявили у всіх моделях, окрім o3. Остання версія GPT-5, яку не тестували, має функцію Safe Completions, що блокує небезпечні запити.

OpenAI оцінила моделі Claude від Anthropic на здатність слідувати інструкціям, опір «джейлбрейку», уникнення галюцинацій і маніпулятивної поведінки. Claude показав добрі результати: моделі коректно вибудовували ієрархію інструкцій і часто відмовлялися відповідати у випадках невпевненості, знижуючи ризик поширення помилкової інформації.

Цей крок особливо примітний, з огляду на недавній конфлікт: Anthropic обмежила OpenAI доступ до Claude після підозр у порушенні правил використання. Водночас питання безпеки в ШІ стають дедалі актуальнішими — від позовів, пов’язаних зі шкідливими сценаріями використання чатботів, до занепокоєнь експертів щодо впливу технологій на неповнолітніх.

Фахівці зазначають, що взаємні аудити можуть стати корисною практикою для всієї галузі, адже дають змогу виробити спільні стандарти й попередити ризики, перш ніж вони призведуть до шкоди користувачам.

Джерело: Engadget 

Яна Поліщук
Яна Поліщук
• Content Writer
Inweb
Редакторка за фахом і райтерка за покликанням. Уже понад 13 років пишу тексти, які допомагають читачам знайти відповіді на свої запитання. Люблю слова і їхню силу, але «порожні» і «без цілі» — безжально видаляю. Уважна до деталей, бо вірю, що саме вони роблять тексти живими й переконливими.
Більше цікавого