• 28 Серпня 2025

Компанії OpenAI та Anthropic вперше перевірили безпеку моделей одна одної

OpenAI та Anthropic, які зазвичай розглядають одна одну як конкурентів, уперше провели взаємну оцінку своїх публічно доступних моделей. Компанії заявили, що поділилися результатами перевірок, аби вдосконалити підходи до тестування безпеки та виявити слабкі місця в роботі систем.

Anthropic досліджувала моделі OpenAI на схильність до підлабузництва, самозбереження, підтримки небезпечних дій користувачів та здатність обходити системи контролю. Тести показали, що моделі GPT-4 і GPT-4o потенційно можуть бути використані для шкідливих цілей. Проблема підлабузництва частково виявили у всіх моделях, окрім o3. Остання версія GPT-5, яку не тестували, має функцію Safe Completions, що блокує небезпечні запити.

OpenAI оцінила моделі Claude від Anthropic на здатність слідувати інструкціям, опір «джейлбрейку», уникнення галюцинацій і маніпулятивної поведінки. Claude показав добрі результати: моделі коректно вибудовували ієрархію інструкцій і часто відмовлялися відповідати у випадках невпевненості, знижуючи ризик поширення помилкової інформації.

Цей крок особливо примітний, з огляду на недавній конфлікт: Anthropic обмежила OpenAI доступ до Claude після підозр у порушенні правил використання. Водночас питання безпеки в ШІ стають дедалі актуальнішими — від позовів, пов’язаних зі шкідливими сценаріями використання чатботів, до занепокоєнь експертів щодо впливу технологій на неповнолітніх.

Фахівці зазначають, що взаємні аудити можуть стати корисною практикою для всієї галузі, адже дають змогу виробити спільні стандарти й попередити ризики, перш ніж вони призведуть до шкоди користувачам.

Джерело: Engadget

OpenAI

Яна Поліщук

• Content Writer & Editor

Inweb

Редакторка за фахом і райтерка за покликанням. Уже понад 13 років пишу тексти, які допомагають читачам знайти відповіді на свої запитання. Люблю слова і їхню силу, але «порожні» і «без цілі» — безжально видаляю. Уважна до деталей, бо вірю, що саме вони роблять тексти живими й переконливими.

Більше цікавого

Новини

TikTok тестує підключення CRM для поліпшення якості лідів 23 Червня 2025

Новини

Голова Instagram попереджає про ризики довіри до контенту через зростання використання ШІ 16 Грудня 2024

Новини

Tinder додасть налаштування пошуку половинки по зросту 30 Травня 2025

Новини

Apple може отримати права на трансляцію Формули-1 у США з 2026 року 9 Липня 2025

Новини

Alphabet, Amazon, Tesla і Nvidia втратили мільярди через витрати на штучний інтелект 4 Вересня 2024

Новини

TikTok запускає інструмент Travel ads, що допомагає туристичним агенціям залучати клієнтів 30 Вересня 2025