ElevenLabs Scribe v2 och Googles Gemini toppar nytt taligenkänningsindex, mätt i ordfelsgrad tar Scribe v2 ledningen på 2,3 procent före Gemini 3 Pro och Mistrals Voxtral medan Whisper halkar efter, när avskrifter blir tillräckligt bra flyttar vinsten till plattformen som säljer avskriften som tjänst och gör samtal till löpande programgränssnittsräkning

ElevenLabs nya taligenkänningsmodell Scribe v2 och Googles Geminimodeller toppar nu Artificial Analysis uppdaterade jämförelse av tal till text, en tabell som rangordnar efter andel felaktiga ord. I version 2.0 av AA-WER-mätningen leder Scribe v2 med 2,3 procents felfrekvens, följd av Gemini 3 Pro på 2,9 procent och Mistrals Voxtral Small på 3,0 procent, enligt The Decoder.

Siffrorna spelar roll eftersom tal till text i det tysta håller på att bli ett standardskikt under kundtjänst, regelefterlevnadsloggning, medieproduktion och mötesprogram. Men den mer omedelbara affärskonsekvensen är inte om modellen missuppfattar ett ord på femtio, utan vem som får sälja ”utskriften” som produkt och koppla på kringliggande tjänster: sammanfattningar, stämningsmärkning, ärenderoutning, kvalitetsbedömning och sökbara arkiv. När utskriften är tillräckligt bra för att oftast gå att lita på flyttar värdet till förpackningen: fördröjning som känns som direktsändning, talarseparering som faktiskt skiljer personer åt i röriga samtal, tålighet mot bakgrundsljud och en förutsägbar kostnad per timme ljud.

Jämförelsen visar också hur de största plattformarna kan vinna utan att bygga ett ensidigt verktyg. The Decoder noterar att Google inte tränade Gemini specifikt för utskrift, men att Gemini 3 Pro ändå hamnar nära toppen. Fördelen kommer av att köra en allmän, flermodal modell i stor skala och sedan låta produktgrupper haka på den i Workspace, Android och kundtjänstsystem. Det skapar ett välbekant beroende: leverantören äger uppdateringarna, prissättningen och felmönstren, medan kunden äger följderna när en dålig utskrift blir ett dåligt beslut.

Längre ned i tabellen hamnar OpenAI:s öppna Whisper Large v3 på 4,2 procents felfrekvens – konkurrenskraftigt, men inte längre bäst i denna mätning. Skillnaden kan se liten ut på papperet men bli stor i inköp: för ett företag som vill ersätta mänsklig transkribering kan några procentenheter vara skillnaden mellan ”vi behöver fortfarande en granskare” och ”vi kan köra utan tillsyn”, och det är där besparingarna finns.

Artificial Analysis testade även ”agenttal”, alltså tal riktat till röstassistenter, där Scribe v2 och Gemini 3 Pro åter leder med 1,6 respektive 1,7 procents felfrekvens. I praktiken kan det flytta fler interaktioner från knapptryckningar till röst – särskilt i bilar, lager och fältarbete – samtidigt som protokollet över vad som sagts hamnar i leverantörens behandlingskedja.

Överst på ytan är detta en kapplöpning i decimaler, men den praktiska verkligheten är enklare: när utskrift blir billig och pålitlig slutar samtalsinspelningen vara en fil och blir en räkning för ett programmeringsgränssnitt.