Vetenskap

Studie visar att kort användning av svarsmaskin med artificiell intelligens försämrar problemlösning

Amerikanska och brittiska forskare låter deltagare räkna bråkuppgifter med GPT-5 och tar sedan bort hjälpen utan förvarning, de som mest ber om färdiga svar hoppar över flest frågor när kryckan försvinner

Bilder

Image description Image description the-decoder.com
 While the AI was available, the AI group (orange) nailed nearly every fraction problem. Once it was pulled for the final three test problems, their solve rate dipped below the control group (green) and their skip rate shot up. | Image: Liu et al.  While the AI was available, the AI group (orange) nailed nearly every fraction problem. Once it was pulled for the final three test problems, their solve rate dipped below the control group (green) and their skip rate shot up. | Image: Liu et al. Liu et al.
Experiment 2 replicated the effect with tighter methodology. The AI group again led during the learning phase but fell behind in the unassisted test. Skip rates were roughly even on average. | Image: Liu et al. Experiment 2 replicated the effect with tighter methodology. The AI group again led during the learning phase but fell behind in the unassisted test. Skip rates were roughly even on average. | Image: Liu et al. Liu et al.
Broken down by usage style: all groups started out comparable (a). On the unassisted test, the "direct-answer" users did worst and skipped most often, while people who ignored the AI entirely posted the highest solve rates (b). Only the direct-answer group also performed worse than their own pre-test (c). | Image: Liu et al. Broken down by usage style: all groups started out comparable (a). On the unassisted test, the "direct-answer" users did worst and skipped most often, while people who ignored the AI entirely posted the highest solve rates (b). Only the direct-answer group also performed worse than their own pre-test (c). | Image: Liu et al. Liu et al.
Experiment 3 applied the design to SAT reading passages. The pattern repeats: after the AI is removed, the AI group's solve rate falls well below the control group, and they skip more often. | Image: Liu et al. Experiment 3 applied the design to SAT reading passages. The pattern repeats: after the AI is removed, the AI group's solve rate falls well below the control group, and they skip more often. | Image: Liu et al. Liu et al.

En kontrollerad studie med bråkräkning som test visar att människor snabbt blir sämre på att lösa liknande problem när ett system för artificiell intelligens tas bort. Efter bara 10–15 minuter med ett sådant system som ren ”svarsmaskin” försämrades deltagarnas prestation när de plötsligt fick klara sig utan hjälp. Resultaten rapporteras av The Decoder och bygger på försök genomförda av forskare vid universitet i USA och Storbritannien.

I det första försöket fick deltagarna 15 bråkfrågor, från uppgifter i ett steg till uppgifter i tre steg. En grupp hade tillgång till GPT-5 i en sidopanel där varje fråga redan låg inlagd tillsammans med en lösning; en kontrollgrupp hade inga hjälpmedel. Under de första 12 uppgifterna kunde gruppen med systemstödet få fram rätt svar med minimal ansträngning, i princip genom att skriva ”Svar?”, och deras träffsäkerhet blev därefter. Sedan, utan förvarning, togs stödet bort för de sista tre uppgifterna, som var identiska för båda grupperna.

På dessa avslutande uppgifter, utan stöd, löste de tidigare användarna färre problem korrekt än kontrollgruppen och de hoppade över nästan dubbelt så ofta. Att hoppa över tolkas i studien som ett mått på uthållighet, eftersom det inte fanns något straff för fel svar och ingen ekonomisk ersättning kopplad till resultat. Upplägget syftade alltså till att deltagarna skulle ha små skäl att taktiskt ”spela” systemet; att ge upp tidigt blir ett beteendesignalmått snarare än ett strategiskt val.

Ett andra försök skärpte utformningen efter en svaghet i den första omgången: svagare deltagare i gruppen med systemstöd kunde framstå som ”framgångsrika” under inlärningsdelen genom att lämna in systemgenererade svar, vilket riskerade att snedvrida jämförelsen. I uppföljningen lades därför ett förtest till med enkla bråkproblem, och kontrollgruppen fick en sidopanel med förtestets lösningar för att gränssnittet skulle vara likvärdigt. Mönstret stod sig: gruppen med stöd presterade bättre när hjälpen fanns, men sämre när den togs bort.

Studien skiljer också mellan hur deltagarna använde verktyget. Omkring 61 procent uppgav att de i huvudsak bad om direkta svar; ungefär en fjärdedel använde det för ledtrådar eller förklaringar; resten använde det knappt alls. Grundförmåga och motivation såg likartade ut mellan dessa undergrupper i förtestet. Men när tillgången stängdes av presterade ”direktsvar”-användarna sämst och hoppade över flest uppgifter, medan de som i praktiken ignorerade verktyget hade högst andel lösta uppgifter, till och med högre än kontrollgruppen.

Den uppdelningen är viktig eftersom den sammanfaller med hur många konsumentverktyg byggs och marknadsförs: som friktionsfria ersättare för tänkande, där gränssnittet är optimerat för omedelbar utmatning snarare än för strukturerad övning. Försöket antyder att den kortsiktiga vinsten i genomströmning har ett mätbart pris som märks direkt när kryckan försvinner, särskilt för dem som behandlar modellen som en orakelröst snarare än som en handledare.

Forskarna beskriver arbetet som det första storskaliga orsakssambandet från kontrollerade experiment och ställer det mot tidigare resultat som byggt på enkäter. Om effekten gäller även utanför bråkräkning skapar det ett praktiskt problem för skolor och arbetsgivare: verktyg som höjer dagens produktion kan i tysthet minska morgondagens kompetens, och försämringen kan vara störst hos just de användare som mest dras till ett-klick-svar.

Gruppen med stöd löste nästan varje uppgift så länge GPT-5 fanns tillgängligt. På samma typ av frågor, minuter senare och utan verktyget, löste de färre än dem som aldrig haft det.