OpenAI представила нові аудіомоделі для розпізнавання та озвучення мовлення

OpenAI анонсувала нові моделі розпізнавання та синтезу мовлення, які вже доступні через API. Вони дозволяють розробникам створювати голосових агентів, які краще розуміють усну мову й точніше озвучують текст.
Моделі gpt-4o-transcribe та gpt-4o-mini-transcribe забезпечують вищу точність розпізнавання, ніж попередні моделі Whisper. За словами OpenAI, вони краще працюють з акцентами, шумом у фоні й нерівномірною швидкістю мовлення. Це стало можливим завдяки додатковому навчанню моделей на великому наборі аудіоданих і застосуванню підкріплювального навчання.
Для синтезу мовлення OpenAI представила модель gpt-4o-mini-tts, яка дозволяє задавати бажану манеру озвучення. Поки що вона підтримує лише наперед задані голоси.
OpenAI також оприлюднила вартість використання моделей:
- gpt-4o-transcribe — близько 0,6 цента за хвилину транскрипції;
- gpt-4o-mini-transcribe — близько 0,3 цента за хвилину;
- gpt-4o-mini-tts — близько 1,5 цента за хвилину озвучення.
Компанія інтегрувала ці моделі в Agents SDK, що спрощує створення голосових агентів. Для роботи в режимі реального часу рекомендується використовувати Realtime API.
Джерело: Neowin