Claude Opus 4.7 väcker ilska bland utvecklare, Anthropic tar betalt per token men modellen växlar mellan fel svar och stridslystna vägran, första omdömena blir fakturor och skärmbilder snarare än prestandatester

Bilder

Claude has a new model, Opus 4.7. Some social media users called it "dumb" and too costly on token use. Samuel Boivin/NurPhoto via Getty Images businessinsider.com

Anthropics nya språkmodell Claude Opus 4.7 har på bara några dagar dragit på sig ovanligt konsumentlika klagomål, trots att produkten säljs per symbol. Användare på X och Reddit har lagt upp jämförelser sida vid sida med misstag, vad som beskrivs som ”stridslystna” vägran att svara, samt hög förbrukning av symboler, enligt Business Insider.

Motreaktionen handlar mindre om huruvida modellen är ”smart” och mer om huruvida den är förutsägbar. Stora språkmodeller prissätts som en nyttighet: man betalar per symbol in och ut. Men de beter sig som sannolikhetssystem där kostnad och svarstid kan variera kraftigt beroende på fråga, sammanhangets storlek och hur mycket säkerhetslager som ligger ovanpå. När en modell använder fler symboler för att nå ett svar betalar kunden två gånger: först i direkta användningsavgifter och sedan i utvecklartid för omformuleringar, omkörningar och skyddsräcken. Det skapar en tyst uppdelning mellan hobbyanvändning, där ”bättre” kan vara en smakfråga, och användning i produktion, där nyckeltalet är kostnad per korrekt åtgärd under givna begränsningar.

Anthropics drivkrafter är inte svåra att förstå. Träning och drift av de mest avancerade modellerna är fortsatt kapitalkrävande, och modeller i högre skikt är ett av få sätt att dela upp prissättningen utan att göra om hela produkten. Om Opus 4.7 är dyrare att köra kan man låta kostnaden slå igenom via ökad symbolförbrukning, så att räkningen ser ut som ”användning” snarare än en höjning av listpriset. Men kunder som budgeterar per uppgift, inte per symbol, tolkar det som att tillförlitligheten har försämrats.

Händelsen visar också hur ”säkerhet” och ”hjälpsamhet” numera är produktegenskaper med konkurrerande intressenter. En modell som ställs in för att vägra oftare kan minska vissa risktyper, men den kan också upplevas som motspänstig av betalande användare som vill ha deterministisk följsamhet. Samtidigt kan en modell som ställs in för maximal hjälpsamhet skapa egna problem när den självsäkert levererar felaktiga svar. Som Business Insider noterar menar vissa användare att kostnaderna är värda det; Y Combinators verkställande direktör Garry Tan berömde modellen, vilket understryker hur värdeerbjudandet ser annorlunda ut för avancerade användare som kan tjäna pengar på små kapacitetsökningar.

Marknadens återkoppling är tills vidare brutal och enkel: utvecklare jämför räkningar och felfrekvenser och styr sedan trafiken till billigare modeller eller mindre kombinationer av modeller. Diskussionen om Opus 4.7 sker offentligt, men beslutet fattas i styrpaneler.

Anthropic lanserade Opus 4.7; de första rapporterna handlade inte om diagram från prestandatester utan om fakturor och skärmbilder.