Språkmodeller avanonmyiserar nätanvändare på minuter, forskare kopplar pseudonymer på Reddit och Hacker News till verkliga identiteter med 68 procent träffsäkerhet vid 90 procents precision, när korrelationskostnaden kollapsar blir datamäklare och myndigheter övervakningssystem utan nya befogenheter

Bilder

AI ends online anonymity: the ease of unmasking pseudonymous accounts english.elpais.com

Stora språkmodeller håller på att rasera den ”praktiska oklarhet” som länge skyddat pseudonyma användare på nätet. Ett forskarlag testade hur snabbt modeller kan koppla anonyma konton till verkliga identiteter genom att mata in tusentals inlägg från plattformar som Reddit och Hacker News. De bad bland annat Gemini och ChatGPT att matcha konton mot riktiga personer. Enligt den uppsats som El País hänvisar till identifierade systemet 68 procent av användarna med 90 procents träffsäkerhet.

Detta handlar mindre om ett nytt dataangrepp och mer om att styckkostnaden för identifiering faller. Sådant som tidigare krävde tid, tålamod och en drivande utredare kan nu göras på minuter med vardagliga verktyg, eftersom språkmodeller är skickliga på att göra om spridda ledtrådar till en rangordnad lista: antydningar om yrke, ort, fritidsintressen, återkommande formuleringar och skrivvanor. Forskarna visar själva ett exempel där profiler på Hacker News kunde kopplas till Linkedin, men den större poängen är att de flesta läcker tillräckligt många ”mjuka kännetecken” över år av inlägg för att en modell ska kunna lägga pusslet. När kostnaden för att samköra uppgifter kollapsar blir hotet inte bara namnpublicering; det blir också att människor ändrar beteende utifrån antagandet att någon, någonstans, billigt kan återskapa en profil.

Detta griper in i hur nätplattformar redan fungerar. Annonsförsäljning och bedrägeribekämpning belönar kontokoppling, enhetsigenkänning och identitetsupplösning mellan tjänster; moderering gynnas när en avstängning kan följa en person snarare än ett användarnamn. Användaren bär samtidigt nedsidan: en pseudonym som förr kändes trygg för visselblåsning, klagomål på arbetsplatsen eller politiskt avvikande åsikter blir ett tunt gränssnitt ovanpå ett långlivat skrivprov.

El País noterar att Anthropic har hänvisat till denna dynamik i sin kritik mot statlig användning av artificiell intelligens för avidentifiering. I ett yttrande till USA:s försvarsdepartement, som artikeln hänvisar till, hävdade bolaget att staten enligt nuvarande lag kan köpa detaljerad data om rörelser, surfning och umgänge från kommersiella källor utan domstolsbeslut, och att kraftfull artificiell intelligens gör det möjligt att sätta samman ”var för sig oskyldiga uppgifter” till en heltäckande bild av en persons liv i stor skala. Även utan nya övervakningsbefogenheter förvandlar modeller alltså befintliga datamarknader till ett effektivare kontrollsystem.

Forskarna uppger att de begränsade sin datamängd av etiska skäl, men samma spärr gäller inte privata utredare, arbetsgivare eller statliga myndigheter med upphandlingsbudgetar. I praktiken blir frågan mindre ”är anonymitet möjlig” och mer ”hur mycket anonymitet har du råd med”, i tid, säkerhetsdisciplin och minskat deltagande.

Studiens rubriksiffra – 68 procents identifiering vid 90 procents träffsäkerhet – bygger på inlägg som redan var offentligt tillgängliga och skrevs flera år innan någon bad en modell att koppla ihop dem.