ChatGPT представила нову модель Images 2.0 — ШІ краще працює з текстом та деталями
Компанія OpenAI представила нову модель генерації зображень Images 2.0 у ChatGPT. Вона краще працює з текстом усередині зображень і точніше відтворює складні деталі.
Раніше генератори зображень часто допускали помилки у написанні слів. Наприклад, створювали неіснуючі назви або спотворювали текст. У новій версії ця проблема значною мірою зникла: модель може створювати зображення, які виглядають придатними для реального використання, зокрема для меню, банерів або інших маркетингових матеріалів.
У компанії пояснюють, що модель отримала здатність мислення. Це дозволяє їй:
- перевіряти власні результати;
- створювати кілька варіантів зображень за одним запитом;
- працювати зі складними форматами: комікси, серії зображень, адаптації під різні розміри.
Також Images 2.0 краще відтворює текст не латиницею: японською, корейською, гінді та іншими мовами. Це розширює можливості для глобального маркетингу та локалізації креативів.
Модель підтримує деталізовані сцени, іконки, елементи інтерфейсу та складні композиції з роздільною здатністю до 2K. Водночас генерація таких зображень займає більше часу, ніж стандартні текстові відповіді, але залишається швидкою — кілька хвилин для складних задач.
Images 2.0 вже доступна для користувачів ChatGPT і Codex. Платні акаунти отримають доступ до більш складних сценаріїв генерації. Окремо компанія запускає API gpt-image-2 для бізнесу — вартість залежить від якості та роздільної здатності зображень.
Це означає зниження витрат на базовий візуальний контент і швидший запуск креативів. Водночас контроль якості та відповідність бренду залишаються критичними: модель працює точніше, але не замінює повноцінну креативну стратегію.
Джерело: TechCrunch