A ElevenLabs anunciou o lançamento do Scribe, seu primeiro modelo de conversão de fala para texto (STT). Desenvolvido para garantir alta precisão na transcrição em 99 idiomas, o Scribe é capaz de lidar com áudio em cenários complexos e do mundo real. O modelo inclui recursos como timestamps por palavra, diarização de falantes e marcação de eventos sonoros, tornando-o uma ferramenta poderosa para diferentes aplicações.
O acesso ao modelo pode ser feito por meio da API de Speech-to-Text, voltada para desenvolvedores, ou diretamente no painel da ElevenLabs, onde criadores de conteúdo e empresas podem enviar arquivos de áudio ou vídeo para gerar transcrições estruturadas. Além disso, a empresa já trabalha em uma versão de baixa latência para aplicações em tempo real, que será lançada em breve.
Precisão superior e suporte a idiomas pouco atendidos
O Scribe foi testado em benchmarks contra alguns dos modelos mais avançados do mercado, como Whisper Large V3, Deepgram Nova-3 e Gemini 2.0 Flash, utilizando conjuntos de dados renomados, como FLEURS e Common Voice. Os resultados mostraram que o modelo supera consistentemente os concorrentes, apresentando os menores índices de erro na transcrição.
Em testes, o Scribe alcançou 98,7% de precisão no italiano, 96,7% no inglês e desempenho igualmente elevado em outros 97 idiomas. A tecnologia também representa um grande avanço na transcrição de idiomas historicamente menos atendidos, como sérvio, cantonês e malaiala, reduzindo significativamente os erros em comparação com soluções já existentes.
Especialistas por trás do desenvolvimento
O desenvolvimento do Scribe contou com a participação de especialistas da ElevenLabs, incluindo Flavio Schneider (líder de pesquisa) e Tim von Känel (líder de projeto), além de profissionais focados em arquitetura, aquisição de dados e otimização do modelo.
Com essa inovação, a ElevenLabs se consolida como um dos principais nomes no campo do reconhecimento automático de fala (ASR), oferecendo uma solução robusta para aplicações como resumos de reuniões, legendagem de vídeos e muito mais.