OpenAI інтегрувала генерацію зображень у GPT-4o — DALL·E більше не потрібен

OpenAI почала впроваджувати нову модель генерації зображень, вбудовану в GPT-4o, яка замінює попередню систему на базі DALL·E. Тепер створення картинок, змінення існуючих зображень і додавання елементів до них відбувається напряму в ChatGPT, без окремої активації моделей.
За словами Сема Альтмана, CEO OpenAI, оновлення вже доступне у ChatGPT і платформі для створення відео Sora для передплатників Pro. Найближчим часом ця функція стане доступною й для безкоштовного тарифу, Plus, Team, Enterprise, Edu, а також через API для розробників.
На відміну від DALL·E 3, GPT-4o генерує зображення повільніше — до хвилини, однак результат точніший і деталізованіший. Серед нових можливостей — підтримка тексту на зображеннях, точне виконання запитів, зазначення пропорцій, кольорів за hex-кодами, прозорого фону, а також редагування завантажених фото. GPT-4o також може змінювати зображення з людьми, включно з фоном і деталями в кадрі.
Навчання моделі здійснювали на публічних даних і матеріалах партнерів, зокрема Shutterstock. В OpenAI наголосили, що не створюють зображення, які відтворюють стиль живих художників. Для захисту авторських прав усі зображення містять метадані C2PA, що дозволяє підтвердити їхнє походження. Компанія також пропонує авторам форму для виключення їхніх робіт із навчальних даних та поважає заборони на збір інформації з сайтів.
На старті модель має низку обмежень: може обрізати зображення (особливо постери), вигадувати деталі при недостатньо чіткому запиті, складно працює з більш ніж 10–20 об’єктами одночасно та помиляється при генерації тексту не латиницею. Також запити на редагування окремих частин іноді змінюють неочікувані елементи.
Джерело: TechCrunch