Google планує об’єднати Gemini та Veo для покращення розуміння реального світу

Генеральний директор Google DeepMind Деміс Хасабіс заявив, що компанія планує об’єднати свої дві головні моделі штучного інтелекту — Gemini та Veo. Про це він повідомив у подкасті Possible, який веде співзасновник LinkedIn Рід Хоффман.
За словами Хасабіса, інтеграція має на меті покращити здатність текстово-мультимодальної моделі Gemini розуміти фізичні процеси в реальному світі. Відеомодель Veo, яка спеціалізується на генерації відео, аналізує візуальні дані, здебільшого з YouTube. Це дає змогу системі навчатися, спостерігаючи за діями людей, рухами об’єктів і взаємодією з середовищем.
Google підтвердила, що для навчання моделей можуть використовувати відео з YouTube відповідно до умов платформи. У 2024 році компанія вже розширила умови використання сервісу, щоб залучати більше даних для тренування ШІ.
Gemini вже підтримує роботу з текстом, зображеннями та звуком. Інтеграція з відеомоделлю Veo має наблизити її до створення універсального цифрового помічника. За словами Хасабіса, така система має не лише генерувати контент, а й ефективно допомагати людям у повсякденних завданнях.
Концепція об’єднаних omni-моделей, які працюють з будь-якими типами даних, стає новим напрямом у розвитку ШІ. Подібні плани вже анонсували OpenAI та Amazon.
Джерело: Tech Crunch