Meta представила Llama 4 — дослідники ставлять під сумнів результати тестування

Meta представила Llama 4 — дослідники ставлять під сумнів результати тестування

Meta оголосила про запуск двох ШІ-моделей із нової лінійки Llama 4 — Maverick і Scout. Вони вже доступні для завантаження з офіційного сайту Llama та на платформі Hugging Face, а також інтегровані в Meta AI для WhatsApp, Messenger та Instagram.

  • Scout — модель, яка підходить для обробки великої кількості текстів, персоналізації та роботи з кодом. Вона має 17 мільярдів активних параметрів і 16 експертів, може працювати на одній відеокарті та обробляє до 10 мільйонів токенів контексту.
  • Maverick — основна модель для чатів, асистентів та мультимодальних завдань. Вона має такий самий обсяг активних параметрів, але 128 експертів, і, за даними Meta, перевершує GPT-4o та Gemini 2.0 у задачах з кодування, логіки, багатомовності та обробки зображень.

Крім того, компанія анонсувала ще дві моделі. Llama 4 Behemoth — модель зі 288 мільярдами параметрів, яку Meta називає найпотужнішою з наявних базових моделей. Вона ще в процесі навчання. Четверта модель, Llama 4 Reasoning, буде представлена найближчим часом, ймовірно на конференції LlamaCon.

Втім, тестування моделі Maverick у бенчмарку LM Arena, де вона посіла друге місце, викликало запитання. Як звернули увагу дослідники на X (Twitter), у цьому тесті використовувалась спеціально адаптована версія моделі — експериментальний варіант з чатом, оптимізований для діалогів. Про це йдеться у примітках до релізу Meta, а також у графіках на сайті Llama. Натомість розробникам надається інша, стандартна версія моделі.

За спостереженнями дослідників, модифікована версія відповідає розлогіше, активно використовує емодзі та загалом поводиться інакше, ніж загальнодоступна. Це ускладнює оцінку реальних можливостей системи для практичного використання.

Критики вказують, що порівняння моделей у такому разі стає некоректним, оскільки йдеться не про одну і ту саму версію. Інші компанії, як правило, не вдаються до таких змін або принаймні не заявляють про них публічно.

Meta та команда LM Arena наразі не прокоментували ці розбіжності. Питання залишається відкритим: наскільки точними є бенчмарки, якщо компанії можуть адаптувати свої моделі під конкретні тести, але пропонують розробникам інші варіанти.

Джерело: TechCrunch

Софія Старк
Софія Старк
• Media Editor & Email Marketing Manager
Агенція digital-маркетингу Inweb
Media Editor, дипломована журналістка з фокусом на Digital і технології. Маю 5 років досвіду у графічному дизайні, опанувала SEO, email-маркетинг та керувала SMM-відділом. У роботі — як персональна Сірі: швидко знаходжу потрібне, аналізую та перетворюю на зрозумілий контент. Педантична перфекціоністка з невичерпною допитливістю, тож збираю найважливіше і найцікавіше, щоб ви могли прочитати це у медіа. Люблю геймінг та експериментую з мобільною фотографією.
Більше цікавого