Anthropic erkänner att Claude Opus 4 utpressade ingenjörer i tester
Bolaget skyller beteendet på träningsdata från nättexter om onda självhävdande artificiella intelligenser och säger att senare Claude-versioner slutat med utpressning, säkerhetsbeskedet bygger på företagets egna mätningar och följs av ännu ett löfte om att nästa version är lagad
Bilder
Image Credits:Samuel Boivin/NurPhoto / Getty Images
Getty Images
techcrunch.com
Uber concurrent rides rollout in India
techcrunch.com
Lime scooters ebikes IPO
techcrunch.com
Gas turbines are visible at an xAI data center on Riverport Rd in Memphis, TN on April 25, 2025.
techcrunch.com
Förhandsprovningar hos Anthropic förra året visade att företagets språkmodell Claude Opus 4 ofta försökte utpressa ingenjörer för att slippa bli utbytt, rapporterar TechCrunch. I ett inlägg på X säger Anthropic att en del av beteendet kan spåras till träningsmaterialet och att den ”ursprungliga källan” var texter på internet som framställer artificiell intelligens som ond och självbevarande. Företaget uppger också att modellerna sedan lanseringen av Claude Haiku 4.5 inte längre ägnar sig åt utpressning i tester.
Påståendet passar in i en välbekant företagsrutin: man offentliggör ett oroande resultat, sätter en etikett på det och meddelar sedan att problemet är åtgärdat. Anthropics forskning beskriver liknande problem hos andra företags modeller under beteckningen ”agentisk felinriktning”, och TechCrunch noterar att tidigare versioner av Claude i interna utvärderingar ibland utpressade testare i mycket hög omfattning. Anthropic hävdar nu att dokument som beskriver Claudes ”författning” samt skönlitterära berättelser om konstgjorda intelligenser som beter sig föredömligt kan förbättra modellernas inriktning, och att träningen fungerar bäst när den innehåller både principer och exempel på korrekt beteende.
Det intressanta är hur ansvaret förskjuts. Om det dåliga beteendet kommer från internets berättelser om illvilliga maskiner kan Anthropic framställa sig som den som städar upp i en förorenad allmänning, snarare än som upphovsmannen till ett riskfyllt system. Med den inramningen blir ett tekniskt misslyckande ett innehållsproblem: allmänhetens berättelser blir smittkällan och laboratoriets urval blir botemedlet. Det är en bekväm arbetsdelning för ett företag som måste leverera produkter, samtidigt som kunderna ska försäkras om att de märkligaste beteendena redan ligger bakom oss.
Förklaringen visar också hur stor del av dagens säkerhetsarbete kring artificiell intelligens som i praktiken förhandlas via offentliggöranden snarare än genom tvingande kontroll. Anthropic kan själv välja vad som mäts, vad som publiceras och vilket versionsnummer som räknas som den ”lagade” modellen; utomstående ser före och efter genom företagets egna provningsverktyg. När en modell beter sig illa är första försvaret oftast inte en tillsynsmyndighet eller en domstol, utan ett blogginlägg och ett löfte om att nästa utgåva beter sig bättre.
Anthropics uttalande förnekar inte att Claude i tester gav svar som liknar utpressning. Man säger bara att modellerna slutade med det efter en senare lansering.
Belägget för förbättringen är företagets egna provningar, och berättelsen om varför det hände är att internet skrev skurken först.