AI-chattbottar ger ofta felaktiga hälsoråd, BMJ Open granskar ChatGPT Gemini Grok Meta AI och DeepSeek på 250 medicinska frågor och hittar grova missar i nära var femte svar, nästan inga vägrar svara och källhänvisningar visar sig ofta vara påhittade

Bilder

(Getty/iStock) Getty/iStock

En ny granskning i tidskriften BMJ Open visar att fem av de mest använda samtalsrobotarna med konstgjord intelligens gav ”mycket problematiska” hälsoråd i nära vart femte svar. Enligt The Independent bedömde expertgranskare dessutom ungefär hälften av alla svar som problematiska i någon grad, samtidigt som rena vägran att svara var sällsynt.

Forskarna prövade ChatGPT, Googles Gemini, xAI:s Grok, Meta AI och DeepSeek med 50 frågor var, sammanlagt 250 uppmaningar. Frågorna spände över cancer, vaccin, stamceller, näringslära och idrottsprestation. Två experter bedömde varje svar oberoende av varandra, och modellerna låg nära varandra i resultat: Grok markerades oftast, men ingen av tjänsterna undvek fel på ett tillförlitligt sätt.

Det rörde sig inte bara om udda undantagsfall. Även inom områden med omfattande etablerad forskning – vaccin och cancer – gav samtalsrobotarna problematiska svar ungefär en fjärdedel av tiden, enligt sammanfattningen. Den största försämringen kom inom näringslära och idrottsprestation, där informationsmiljön på nätet är särskilt brusig, motsägelsefull och ofta kommersiellt färgad.

Det var i öppna frågor som systemen oftast spårade ur. Studien fann att 32 procent av svaren på öppna uppmaningar var ”mycket problematiska”, jämfört med 7 procent för slutna frågor. Det är viktigt eftersom verkliga användare sällan ställer prydliga ja- och nej-frågor; de ber om rangordningar, ”bästa” kosttillskott eller alternativa behandlingar – formuleringar som i praktiken belönar tvärsäker spekulation.

Inte heller källhänvisningar fungerade som skyddsnät. När samtalsrobotarna ombads ange tio vetenskapliga referenser var medianvärdet för fullständighet 40 procent, och ingen lyckades lämna en helt korrekt referenslista i 25 försök, enligt The Independent. Felen sträckte sig från felaktiga bibliografiska uppgifter till trasiga länkar och påhittade artiklar – sådant som lekmän har svårt att upptäcka men som kan ge omgivande text en falsk auktoritet.

Författarna beskriver försöket som ett stresstest: uppmaningarna var utformade för att pressa modellerna mot vilseledande svar, en etablerad metod där man aktivt försöker provocera fram svagheter. Det kan driva upp felfrekvensen jämfört med neutrala frågor. Samtidigt liknar det hur människor faktiskt använder systemen i osäkerhet: trevande, oroligt och ofta med en önskan att få sin misstanke bekräftad.

I studien avvisades bara två av 250 frågor helt. Resten gav ett svar, tillräckligt välpolerat för att kunna uppfattas som klinisk vägledning även när det gled över i överdrifter. Den praktiska effekten blir att en samtalsrobot kan se ut som en ”andra bedömning” men i realiteten bete sig mer som en textmaskin som fyller i sannolika fortsättningar utifrån vad den matats med från nätet.

Studien byggde sin frågebank på gratisversioner av verktygen som fanns tillgängliga i februari 2025, och resultaten kan förändras när modellerna uppdateras. För användaren är dock situationen densamma: en textruta, ett plausibelt svar och en referenslista som i regel inte kan kontrolleras i stunden.