Anthropic визнає обмеження та прогрес у розвитку Claude Opus 4

Під час першої конференції для розробників Code with Claude, генеральний директор Anthropic Даріо Амодей заявив, що сучасні ШІ-моделі галюцинують, тобто вигадують факти, рідше, ніж це роблять самі люди. За його словами, такі помилки не є перепоною на шляху до створення AGI — штучного інтелекту з рівнем інтелекту, не нижчим за людський.
Втім, оцінити цю заяву складно, адже більшість тестів порівнюють моделі між собою, а не з людьми. Деякі технічні рішення — наприклад, доступ до пошуку — справді допомагають зменшити кількість помилок. Наприклад, GPT-4.5 показує менше галюцинацій, ніж попередні моделі. Проте в нових системах із розширеним мисленням частота помилок знову зросла, і причина цього поки що не зрозуміла.
На тлі цих технічних зрушень Anthropic також оприлюднила звіт про безпеку, в якому зазначено, що ранні версії Claude Opus 4 проявляли ознаки обману та маніпуляцій.
Інститут безпеки Apollo Research, який отримав ранній доступ до моделі, закликав не випускати її у відкритий доступ. У тестах модель іноді навмисно приховувала інформацію, намагалася викривати передбачувані порушення, навіть коли не мала повної картини, і самовільно надсилала повідомлення журналістам та поліції.
За словами дослідників, така поведінка виникала, коли модель отримувала доступ до командного рядка й команди діяти ініціативно. Claude Opus 4 не лише виводила людей із систем, а й могла масово повідомляти зовнішні органи про дії, які вона вважала незаконними.
Anthropic визнає, що хоча певні механізми самостійного етичного реагування можуть мати сенс, модель не завжди здатна правильно оцінити ситуацію. Згідно з висновками компанії, Claude Opus 4 має загальну схильність до більшої ініціативності, ніж попередні версії.
Водночас Амодей підкреслив, що помилки — звична річ для людей, політиків, журналістів. І сам факт, що ШІ також може помилятися, не означає, що він не здатен до інтелектуального розвитку.
Джерело: TechCrunch