• 21 Березня 2025

OpenAI представила нові аудіомоделі для розпізнавання та озвучення мовлення

OpenAI анонсувала нові моделі розпізнавання та синтезу мовлення, які вже доступні через API. Вони дозволяють розробникам створювати голосових агентів, які краще розуміють усну мову й точніше озвучують текст.

Моделі gpt-4o-transcribe та gpt-4o-mini-transcribe забезпечують вищу точність розпізнавання, ніж попередні моделі Whisper. За словами OpenAI, вони краще працюють з акцентами, шумом у фоні й нерівномірною швидкістю мовлення. Це стало можливим завдяки додатковому навчанню моделей на великому наборі аудіоданих і застосуванню підкріплювального навчання.

Для синтезу мовлення OpenAI представила модель gpt-4o-mini-tts, яка дозволяє задавати бажану манеру озвучення. Поки що вона підтримує лише наперед задані голоси.

OpenAI також оприлюднила вартість використання моделей:

gpt-4o-transcribe — близько 0,6 цента за хвилину транскрипції;
gpt-4o-mini-transcribe — близько 0,3 цента за хвилину;
gpt-4o-mini-tts — близько 1,5 цента за хвилину озвучення.

Компанія інтегрувала ці моделі в Agents SDK, що спрощує створення голосових агентів. Для роботи в режимі реального часу рекомендується використовувати Realtime API.

OpenAI повідомила, що планує надалі підвищувати точність моделей і надати розробникам можливість створювати власні голоси, дотримуючись внутрішніх стандартів безпеки.

Джерело: Neowin

OpenAI

Софія Старк

• Media Editor & Email Marketing Manager

Агенція digital-маркетингу Inweb

Media Editor, дипломована журналістка з фокусом на Digital і технології. Маю 5 років досвіду у графічному дизайні, опанувала SEO, email-маркетинг та керувала SMM-відділом. У роботі — як персональна Сірі: швидко знаходжу потрібне, аналізую та перетворюю на зрозумілий контент. Педантична перфекціоністка з невичерпною допитливістю, тож збираю найважливіше і найцікавіше, щоб ви могли прочитати це у медіа. Люблю геймінг та експериментую з мобільною фотографією.

Більше цікавого

Новини

Дослідження LinkedIn: які навички необхідні сучасному CMO 16 Травня 2024

Новини

Банк Англії тестує ШІ для прогнозування інфляції та покращення комунікації 5 Червня 2025

Новини

Відбувся офіційний запуск альтернативи Instagram — застосунку Foto 21 Лютого 2025

Новини

Google показуватиме в пошуку вміст з email-розсилок компаній 4 Квітня 2025

Новини

Google Merchant Center додав функцію вибору платіжних методів 12 Грудня 2024

Новини

Google обмежила правило, яке дозволяє працювати дистанційно 9 Жовтня 2025