Teknik

OpenAI säljer realtidsröst i sitt programmeringsgränssnitt

Nya modeller för samtalsstyrning transkribering och översättning riktas mot kundtjänst och direktsändningar, varje samtal blir debiterbara minuter och granskningsbara loggar

Bilder

OpenAI launches new voice intelligence features in its API | TechCrunch OpenAI launches new voice intelligence features in its API | TechCrunch techcrunch.com

OpenAI har byggt ut sitt så kallade direktsändningsgränssnitt med nya röst- och översättningsmodeller som ska göra det lättare för utvecklare att skapa program som kan tala, skriva ned och översätta samtal i realtid, rapporterar TechCrunch. Lanseringen omfattar GPT‑Realtid‑2 för interaktivt tal, GPT‑Realtid‑Översätt för översättning i realtid och GPT‑Realtid‑Whisper för löpande tal‑till‑text. Enligt OpenAI är målet att röstsystem ska gå från enkla frågesvar till gränssnitt som kan lyssna, resonera, översätta, skriva ned och agera under pågående samtal.

Förpackningen och prissättningen är minst lika viktig som själva modellerna. Två av de tre nya funktionerna debiteras per minut, medan GPT‑Realtid‑2 debiteras efter symbolförbrukning, uppger TechCrunch. Det driver röstinteraktion mot samma mätarstyrda ekonomi som molndrift: varje sekund blir en kostnadspost. Det passar de kundtjänstfall OpenAI uttryckligen siktar på, där företag redan mäter samtalstid och kan sätta en prislapp på varje människolik utväxling. Samtidigt blir tjänstens råvara – strömmar av användartal – svårare att behandla som något tillfälligt: ljud blir både arbetsenhet och, av nödvändighet, enhet för lagring, felsökning och regeluppfyllelse.

OpenAI säger sig ha skyddsräcken för att motverka missbruk som skräppost, bedrägerier och nättrakasserier, bland annat utlösare som kan avbryta samtal som bryter mot företagets regler för skadligt innehåll. I praktiken kräver sådan tillsyn i realtid också granskning i realtid: systemet måste övervaka vad som sägs för att avgöra när det ska stoppa. Det är en annan hållning än en textbaserad samtalstjänst där användaren själv kan välja vad som klistras in. Röstgränssnitt tenderar att dra in omgivningen – bakgrundsröster, namn, adresser, kontonummer – eftersom det är så människor talar när de inte skriver.

Företaget positionerar också modellerna för utbildning, medier, evenang och plattformar för innehållsskapare, områden där ”direkt” ofta innebär höga insatser och hög känslighet: klassrum, intervjuer, kommunikation bakom scenen och publikinteraktion. Översättning i samtalstempo – OpenAI säger att modellen stöder fler än 70 inmatningsspråk och 13 utmatningsspråk – sänker tröskeln för gränsöverskridande tjänster, men den centraliserar också mellanhanden. När samma leverantör står för rösten, utskriften och översättningen blir leverantören en flaskhals för fördröjning, regelverkstillämpning och felutfall.

OpenAIs besked påminner om att kapplöpningen inom artificiell intelligens inte bara handlar om större modeller, utan om att äga gränsskiktet där användare talar i stället för att klicka. I den världen är ”programmet” mindre en skärm än en sammanhängande ljudsession med en mätare som tickar.

De nya röstmodellerna säljs som verktyg för smidigare samtal. De säljs också per minut.