Google lanserar Gemini 3.1 Pro och skyltar med rekord i mätningar
TechCrunch beskriver hur mätkulturen bygger på läckta testfrågor, styrda uppmaningar och flyttade jämförelser, högst poäng visar vem som vinner spelet just nu snarare än vem som bygger mest duglig allmän intelligens
Bilder
Image Credits:Jagmeet Singh / TechCrunch
techcrunch.com
In this photo illustration, the logo of 'OpenAI' is displayed on a mobile phone screen in front of a computer screen displaying the photograph of Elon Musk.
techcrunch.com
India flag with 'AI' displayed on smartphone screen in foreground
techcrunch.com
OpenAI India
techcrunch.com
Sarvam Indus chat app
techcrunch.com
Googles senaste släpp av Gemini Pro marknadsförs på det sätt som modern konstgjord intelligens brukar marknadsföras: som en rad pokaler från jämförelsetester, noggrant fotograferade ur fördelaktiga vinklar. Tekniksajten TechCrunch rapporterar att Google har släppt Gemini 3.1 Pro i förhandsversion och framhållit ”rekord”-resultat i oberoende utvärderingar, bland annat i en provsvit som kallas Mänsklighetens sista examen. Mercors verkställande direktör Brendan Foody hävdade dessutom i ett inlägg i sociala medier att Gemini 3.1 Pro toppar APEX-Agents topplista, ett jämförelsetest som är tänkt att approximera prestation i professionellt ”kunskapsarbete”.
Inget av detta behöver vara osant; det är bara ofullständigt på det sätt som topplistekulturen kräver. Jämförelsetester är inga naturlagar. De är programvarukonstruktioner — uppmaningar, bedömningsmallar, datamängder och rättningssystem — vars drivkrafter är synliga för dem som bygger modellerna och vars svagheter rutinmässigt utnyttjas, ibland av misstag, ofta inte.
Tre tekniska problem dominerar glappet mellan ”rekordresultat” och en robust vetenskaplig signal. För det första datakontaminering: om utvärderingsuppgifter (eller nära omskrivningar) läcker in i träningsmaterialet kan en modell framstå som om den ”resonerar” när den i själva verket bara återger minnen. För det andra läckage av uppmaningar och spel med utvärderingen: när format för jämförelsetester blir standardiserade kan modeller och efterträningskedjor överanpassas till själva poängsättningen snarare än till den underliggande uppgiften. För det tredje förskjutna jämförelsegrunder: nya modellversioner jämförs ofta med föregångare under subtilt olika körinställningar, med olika tillgång till verktyg eller med andra systemuppmaningar, vilket gör ett påstående om ”rättvis jämförelse” till något som mer liknar att jämföra äpplen med en fruktsallad.
TechCrunch noterar att åskådare ser Gemini 3.1 Pro som ett steg upp från Gemini 3, och att modellkrigen accelererar när OpenAI och Anthropic skickar ut konkurrerande system. Just det tempot gör noggrannhet i jämförelsetester viktigare, inte mindre: när släpp sker månadsvis kan ”oberoende” utvärderingar bli en informell samutvecklingsslinga mellan laboratorier och dem som skriver proven.
Det finns ett strängare tolkningsramverk. Förhandsregistrerade utvärderingar skulle låsa mått och poängsättning före modellsläpp. Avskilda privata provmängder — granskade, åtkomststyrda och regelbundet förnyade — skulle minska kontaminering och finjustering mot uppmaningar. Och reproducerbarhet skulle kräva att utvärderingsvillkor redovisas (systemuppmaningar, verktygsanvändning, samplingsparametrar) samt meningsfull öppenhet om hur träningsdata har filtrerats och varifrån de kommer.
Företag kommer att invända att insyn bjuder in till kopiering. Sant. Den bjuder också in till verifiering, vilket är poängen. Tills dess är ”rekord i jämförelsetester — igen” mest ett påstående om vem som är bäst på det nuvarande spelet, inte vem som byggt det mest allmänt kapabla systemet. Vetenskap är det som återstår när topplistan är borta.