OpenAI представила нові аудіомоделі для розпізнавання та озвучення мовлення

OpenAI представила нові аудіомоделі для розпізнавання та озвучення мовлення

OpenAI анонсувала нові моделі розпізнавання та синтезу мовлення, які вже доступні через API. Вони дозволяють розробникам створювати голосових агентів, які краще розуміють усну мову й точніше озвучують текст.

Моделі gpt-4o-transcribe та gpt-4o-mini-transcribe забезпечують вищу точність розпізнавання, ніж попередні моделі Whisper. За словами OpenAI, вони краще працюють з акцентами, шумом у фоні й нерівномірною швидкістю мовлення. Це стало можливим завдяки додатковому навчанню моделей на великому наборі аудіоданих і застосуванню підкріплювального навчання.

Для синтезу мовлення OpenAI представила модель gpt-4o-mini-tts, яка дозволяє задавати бажану манеру озвучення. Поки що вона підтримує лише наперед задані голоси.

OpenAI також оприлюднила вартість використання моделей:

  • gpt-4o-transcribe — близько 0,6 цента за хвилину транскрипції;
  • gpt-4o-mini-transcribe — близько 0,3 цента за хвилину;
  • gpt-4o-mini-tts — близько 1,5 цента за хвилину озвучення.

Компанія інтегрувала ці моделі в Agents SDK, що спрощує створення голосових агентів. Для роботи в режимі реального часу рекомендується використовувати Realtime API.

OpenAI повідомила, що планує надалі підвищувати точність моделей і надати розробникам можливість створювати власні голоси, дотримуючись внутрішніх стандартів безпеки.

Джерело: Neowin

Софія Старк
Софія Старк
• Media Editor
Агенція digital-маркетингу Inweb
Media Editor, дипломована журналістка із пристрастю до Digital та технологій. Маю стаж графічного дизайну розрізом у 5 років, вивчала основи SEO, email-маркетингу та була Head of SMM. Ваша персональна Сірі у світі digital, штучного інтелекту тощо. Педантична перфекціоністка із неймовірною допитливістю, тому збираю найцікавіше, щоб ви могли прочитати це в медіа. Обожнюю геймінг та практикую мобільну фотографію.
Більше цікавого