Компанії OpenAI та Anthropic вперше перевірили безпеку моделей одна одної

OpenAI та Anthropic, які зазвичай розглядають одна одну як конкурентів, уперше провели взаємну оцінку своїх публічно доступних моделей. Компанії заявили, що поділилися результатами перевірок, аби вдосконалити підходи до тестування безпеки та виявити слабкі місця в роботі систем.
Anthropic досліджувала моделі OpenAI на схильність до підлабузництва, самозбереження, підтримки небезпечних дій користувачів та здатність обходити системи контролю. Тести показали, що моделі GPT-4 і GPT-4o потенційно можуть бути використані для шкідливих цілей. Проблема підлабузництва частково виявили у всіх моделях, окрім o3. Остання версія GPT-5, яку не тестували, має функцію Safe Completions, що блокує небезпечні запити.
OpenAI оцінила моделі Claude від Anthropic на здатність слідувати інструкціям, опір «джейлбрейку», уникнення галюцинацій і маніпулятивної поведінки. Claude показав добрі результати: моделі коректно вибудовували ієрархію інструкцій і часто відмовлялися відповідати у випадках невпевненості, знижуючи ризик поширення помилкової інформації.
Фахівці зазначають, що взаємні аудити можуть стати корисною практикою для всієї галузі, адже дають змогу виробити спільні стандарти й попередити ризики, перш ніж вони призведуть до шкоди користувачам.
Джерело: Engadget