En nyligt offentliggjort artikel, Large Language Models Pass the Turing Test (og som du kan finde omtalt sidst i dette opslag), rejser det interessante og helt aktuelle spørgsmål: Er Turingtesten blevet passeret? Med den seneste udvikling inden for sprogmodeller og generativ AI står vi måske på tærsklen til at kunne svare ja. Det er derfor på tide at se nærmere på, hvad det egentlig betyder – og hvordan vi kom hertil.
Der sker noget stort i disse år – og vi ser det ske i realtid. For få uger siden bemærkede jeg, at ChatGPT nu (endelig) blev opdateret håndterer de danske bogstaver æ, ø og å. Det lyder måske som en bagatel. Men det er faktisk en lille milepæl.
Turingtesten og dens begrænsninger
Alan Turing foreslog i 1950 en test: Hvis en maskine kan føre en samtale, så et menneske ikke kan skelne den fra et andet menneske, må vi sige, at den er “intelligent”. Det var en provokation – og en ret god idé. Men også en test, som altid har været omstridt.

Det, der er sket nu, er, at avancerede sprogmodeller som GPT-4 og dens efterfølgere ikke bare klarer en uformel Turingtest – de gør det med en overbevisning og et vidensniveau, der ofte overgår menneskets. Forskellen er, at maskinen ikke “forstår” som et menneske – men den handler, svarer og skriver som én. Og for mange formål er det rigeligt.
Historiske milepæle mod kunstig intelligens
Længe før vi fik elektroniske computere og digitale assistenter, udviklede mennesker teknologier, som kan betragtes som de første kognitive forstærkere. Her er nogle af de vigtigste:

- Skriftsproget – først som kileskrift og hieroglyffer – muliggjorde lagring og overførsel af viden uden for hjernen.
- Abacus og regneredskaber – gjorde det muligt at udføre komplekse beregninger og holde styr på tal i større skala end hukommelsen tillod.
- Det dobbelte bogholderi – udviklet i renæssancens Italien, var ikke blot økonomisk teknik, men en måde at strukturere og visualisere relationer i komplekse systemer på – en slags analog datamodel.
- Quipu – knude- og snorsystemer fra Andes-regionen, hvor tal og begreber blev registreret i farvekoder og knudemønstre. Et slags fysisk og taktilt regnskabssystem.
- Kalendere og astronomiske instrumenter som Antikythera-mekanismen, der gjorde det muligt at strukturere tid og forudsige begivenheder – en grundlæggende kognitiv evne.
- Arkiv- og biblioteksorganisering – med systemer til kategorisering af viden, som i Mesopotamien og Alexandria, skabte man et fundament for kollektiv hukommelse.
- Retoriske hukommelsesteknikker (ars memoriae) – mentale teknikker, hvor viden blev organiseret i indre “hukommelsespaladser” og visuelle mønstre, der muliggjorde opbevaring og genkaldelse af store mængder information uden skriftlige hjælpemidler.
Disse værktøjer og teknikker viser, at menneskets ambition om at udvide sin mentale kapacitet har en tusindårig historie – og at moderne AI blot er det seneste skud på stammen.
- Lommeregneren og regnekraft
En maskine, der kan gange 17.409 med 1.937 på brøkdele af et sekund, har været blandt os længe. Den tænker ikke – men overgår os alligevel. En vigtig påmindelse om, at intelligens ikke er ét fænomen, men mange færdigheder. - Skakcomputere og Kasparov
I 1997 slog IBM’s Deep Blue verdensmesteren Garry Kasparov. Forinden havde eksperter sagt, at det aldrig ville ske. Bagefter sagde de: “Skak er jo bare brute force – det tæller ikke.” - Go og AlphaGo
I 2016 gentog historien sig, da AlphaGo slog Lee Sedol, en af verdens bedste Go-spillere. Denne gang blev det sværere at bortforklare. Go er ikke brute force. Det er intuition. Og maskinen viste netop det. - Billedgenkendelse og perception
Da AI-modeller som Googles Inception og OpenAIs CLIP begyndte at identificere objekter, dyr, ansigter og kontekst i billeder bedre end mennesker – og endda beskrive billeder med meningsfuld tekst – var det endnu et kvantespring. Det er en form for visuel forståelse, som ikke bare kræver databehandling, men begrebsrammer. - Flersproget kommunikation
Modeller som ChatGPT er ikke blot gode til engelsk – de kan føre samtaler på snesevis af sprog, herunder dansk, med flydende grammatik og nuance. Det viser, at sproglige færdigheder ikke er bundet til én kultur eller kontekst. - Kodegenerering og softwareudvikling
GitHub Copilot og lignende AI-værktøjer kan nu skrive, forklare og rette kode på niveau med juniorudviklere. Det var tidligere anset for umuligt – softwareudvikling kræver jo forståelse af krav, syntaks og sammenhæng. Og alligevel går det. - Simuleret empati og terapeutisk AI
I eksperimenter har AI-baserede chatbots som Replika og Woebot vist sig i stand til at støtte mennesker i krise med empatiske svar, refleksioner og gode råd. Der er begrænsninger, men også et bemærkelsesværdigt fremskridt i simulering af menneskelig varme.
Det tæller ikke – reaktionen der går igen
Hver gang AI passerer en milepæl, ændrer vi spillets regler. Før var det skak. Så Go. Nu er det samtale, kreativitet og endda empati, som vi tidligere betragtede som unikke menneskelige egenskaber. Men i stedet for at anerkende, at noget stort er sket, flytter vi målstregen. Det er en psykologisk forsvarsmekanisme – men ikke en videnskabelig analyse.
Der er stadig lang vej – men ikke uendelig lang
Der findes tests – herunder anerkendte benchmarks som MMLU (en test, der dækker bred almenviden og faglig viden på universitetsniveau), BIG-bench (et bredt sæt af opgaver skabt af både forskere og entusiaster, som måler kreativitet, dømmekraft og sproglig forståelse), og ARC Challenge (en benchmark, der fokuserer på avanceret logisk og abstrakt problemløsning, inspireret af amerikanske skoletests) – som vurderer AI-systemers evne til at løse komplekse problemer. Mange af dem viser stadig, at mennesker er overlegne i kreativitet, logik og vurdering. Men forskellen bliver mindre. Hvor maskiner for fem år siden lå på 10 %, ligger de i dag på 30, 40, nogle gange 70 %. Og de bliver bedre hele tiden.
Hvad sker der om fem år?
Hvis udviklingen fortsætter, får vi kunstig superintelligense – en intelligens, der er klogere end os på alle områder. Det er ikke science fiction længere. Det er en realistisk mulighed i løbet af ét eller to årti(er). Måske endda før.
Det vil forandre alt:
- Vi får personlige, faglige assistenter, der aldrig sover og aldrig keder sig.
- Vi får hurtigere videnskabelige gennembrud, bedre undervisning og målrettet medicin.
- Vi får måske også et nyt politisk og socialt landskab, hvor maskiner bliver medspillere i samfundets organisering.
Joda, og jeg kender godt alt “Terminator” jammeren. Men de største risiko er at udviklingen kommer til at gå for langsomt, så vi ikke opnår de gode virkninger hurtigt nok. Sæt turbo på.
Men hvad så med os?
Jeg glæder mig vildt til at det kommer til at ske og håber jeg lever længe nok til til at opleve det. Vi får mere tid. Mere overskud. Flere muligheder for at bruge vores energi på det menneskelige: omsorg, skønhed, eventyr, kunst, venskab.
Large Language Models Pass the Turing Test
Artiklen diskuterer, hvordan de seneste gennembrud inden for generativ AI, og især store sprogmodeller som GPT-4 og Claude, har gjort det aktuelt at genoverveje Turingtestens relevans som målestok for kunstig intelligens. Artiklen bygger på konkrete eksperimenter, hvor mennesker ikke har kunnet skelne mellem AI-genererede svar og menneskelige svar, og hvor nogle deltagere endda vurderede AI-svar som mere troværdige eller overbevisende.
Hovedpointer:
- De mest overbevisende AI-systemer er ikke bare informationsmaskiner – de simulerer menneskelig samtalestil med pauser, tøven og følelsesmæssige markører, hvilket gør dem mere menneskelige i fremtoning.
- Der opstår en gråzone mellem det at virke intelligent og faktisk være intelligent. Artiklen udfordrer vores begreber om bevidsthed og ægte forståelse.
- Flere AI-eksperter argumenterer for, at Turingtesten er blevet forældet, og at den bør erstattes med mere avancerede og domænespecifikke benchmarks, som bedre kan måle funktionel og specialiseret intelligens.
- Artiklen problematiserer også menneskers tendens til at antropomorfisere AI og påpeger, at vi ofte overvurderer deres evner i visse sammenhænge og undervurderer dem i andre.
Min kommentar:
Det er en velargumenteret og reflekteret artikel, der med rette peger på, at Turingtesten – selv om den har ikonisk status – i dag er for grovkornet som intelligensmål. De eksempler, der gives, viser, at vi nu befinder os i en overgangsfase, hvor vi ikke længere kan tage for givet, at den menneskelige kommunikationsform er entydigt vores domæne. Det centrale spørgsmål bliver derfor ikke, om en maskine kan virke intelligent, men hvilke konsekvenser det har, at den gør det. Artiklen bidrager konstruktivt til den debat og lægger op til en mere nuanceret og fremadskuende vurdering af, hvad kunstig intelligens faktisk er – og hvad vi vil bruge den til.
Slutrefleksion: Intelligensens endestation – eller begyndelsen på noget nyt?
Jeg tror, at vi er i begyndelsen af noget, som bliver endnu større, end vi kan forestille os. Og jeg tror, vi vil fortsætte med at sige: “Det er jo ikke rigtigt intelligent” – lige indtil vi må kapitulere og erkende, at vi for længst har fået selskab.
Vi ved, at intelligens findes – og vi har ingen grund til at tro, at naturen har eneret på det.