Společnost ElevenLabs se dosud specializovala především na technologie pro převod textu na řeč, nyní však přichází s novinkou z opačné strany tohoto oboru. Představuje Scribe, svůj první model pro automatický převod řeči na text (tzv. STT). Ten si klade za cíl zlepšit přesnost a dostupnost přepisu v celkem 99 jazycích. Nabízí pokročilé funkce, jako jsou časové značky u jednotlivých slov či rozpoznávání různých mluvčích.
Scribe se profiluje jako řešení pro rozmanité situace — od zachycení zápisků a shrnutí jednání, přes tvorbu titulků, až po náročné audio nahrávky s více hlasy. Za vývojem stojí klíčové osobnosti společnosti ElevenLabs, Flavio Schneider a Tim von Känel. Změřili se na to, aby nástroj nabízel nejen vysokou přesnost, ale i komplexní funkce pro pohodlné využití v praxi.
Introducing Scribe — the most accurate Speech to Text model.
— ElevenLabs (@elevenlabsio) February 26, 2025
It has the highest accuracy on benchmarks, outperforming previous state-of-the-art models such as Gemini 2.0 and OpenAI Whisper v3.
It’s now the leading model for English, Spanish, Italian, and many more. With support… pic.twitter.com/A6TzLzFEUL
Bezkonkurenční výkon v 99 jazycích
Mezi hlavní přednosti Scribe patří podrobná identifikace mluvčích i zvukových událostí a důraz na minimalizaci chybovosti — a to napříč 99 jazyky. V interních testech porovnávala společnost ElevenLabs Scribe s konkurenčními modely (Whisper Large V3, Deepgram Nova-3 či Gemini 2.0 Flash) a podle zveřejněných dat Scribe dosahoval nejnižší míry chyb. Výsledkem je například až 98,7procentní přesnost v italštině a 96,7procentní v angličtině, což platí i pro řadu dalších jazyků. Včetně těch méně rozšířených, jako jsou srbština, kantonština nebo malajalamština.
Vedle přesného přepisu textu v různých jazycích nabízí Scribe také API určené pro vývojáře. Ti mohou díky němu vytvářet přepisy ve formátu JSON s vyznačenými neřečovými událostmi i jednotlivými mluvčími. To výrazně usnadňuje nasazení nástroje v různých aplikacích. Za hodinu zpracovaného audia si ElevenLabs účtuje 0,40 USD, přičemž po dobu šesti týdnů od spuštění je služba k dispozici se zaváděcí slevou.
Společnost zároveň chystá verzi Scribe s nízkou latencí pro potřeby živého přepisu, což by mělo dále rozšířit pole jeho využití. Služba je už teď dostupná skrze ovládací panel ElevenLabs, kde lze jednoduše nahrát audio či video a získat přepis ve formátu, který přesně odpovídá daným požadavkům.
S tímto krokem ElevenLabs jednoznačně vstupuje do boje s už zavedenými hráči na poli převodu řeči na text, jako jsou Google, Otter nebo Fireflies. Díky pokročilým funkcím, vysoké přesnosti a cenově přívětivé nabídce má Scribe potenciál stát se nepostradatelným nástrojem nejen pro firmy, ale pro každého, kdo potřebuje spolehlivé a efektivní řešení automatického přepisu.