ElevenLabs представила Scribe — власну модель ШІ для перетворення аудіо в текст

Стартап ElevenLabs представив свою першу автономну модель перетворення мовлення в текст — Scribe. Досі компанія пропонувала такі послуги через партнерські рішення, але тепер виходить на ринок самостійно, і буде конкурувати з OpenAI Whisper, Speechmatics, Deepgram та іншими сервісами розпізнавання мовлення.

Scribe підтримує розпізнавання 99 мов, зокрема англійської, французької, німецької, іспанської, португальської, японської та інших. Для 25 мов похибка не перевищує 5%, що ставить модель у категорію з «високою точністю». У тестах FLEURS і Common Voice Scribe перевершила Google Gemini 2.0 Flash і Whisper Large V3 за рівнем коректності транскрипції.
Модель може автоматично визначати, хто саме говорить у діалозі, додає мітки часу до кожного слова та розпізнає звукові події, як-от сміх чи аплодисменти. ElevenLabs інтегрувала Scribe у власну платформу, що дозволяє транскрибувати відео для створення субтитрів або текстових розшифровок.
Наразі Scribe працює лише з попередньо записаними аудіофайлами, однак компанія вже розробляє версію для розпізнавання мовлення в реальному часі, що дозволить використовувати модель для стенографування зустрічей або автоматичного запису голосових нотаток.
Вартість транскрипції — $0.40 за годину аудіо. Це конкурентна пропозиція, хоча деякі аналоги на ринку пропонують нижчі ціни та додаткові функції.
Джерело: TechCrunch