Meta tester AI’s intelligens – konkluderer at AI er dum

Vi hører ofte, at AI-sprogmodeller klarer sig blandt de bedste i eksamener og test, men ny undersøgelse foretaget af Meta tegner et helt andet billede af sprogmodellers intelligens.

Meta tester AI’s intelligens – konkluderer at AI er dum

Et hold forskere hos Facebooks moderselskab Meta har udviklet en ny benckmark, der kan undersøge evnerne hos AI-systemer som OpenAI’s sprogmodel GPT-4. De kan konstatere, at OpenAI’s nuværende version af AI-modellen stadig er ret dum.

Holdet, der blandt andet består af AI-godfatheren og chefforsker hos Meta Yann LeCun, har udviklet en test ved navn GAIA. Den består af 466 spørgsmål, der ifølge en endnu ikke fagfællebedømt undersøgelse “er konceptuelt enkle for mennesker, men udfordrende for de mest avancerede AI’er.”

Læs også: Overraskende tal: Bing taber markedsandele trods AI-satsning

GPT-4 dumper test med et brag

Resultaterne taler for sig selv: De mennesker, der har taget testen, svarede rigtigt på 92 procent af spørgsmålene, mens GPT-4 klarede sølle 15 procent. Og det var endda med tredjepartsudvidelser i ChatGPT intalleret. OpenAI’s nyeste GPT-4 Turbo klarede ifølge undersøgelsen mindre end 10 procent af spørgsmålene. Det er dog uvist, hvordan konkurrerende sprogmodeller som Metas egen Llama 2 eller Googles PaLM-model, der bruges til Google Bard, har klaret sig.

Resultaterne viser imidlertid, at vi tilsyneladende stadig er langt væk fra at opnå Artificial General Intelligence (AGI) eller generel kunstig intelligens. Det er det stadie, hvor AI-algoritmer kan udkonkurrere mennesket i at udføre intellektuelle opgaver.

Læs også: Samsung lancerer Gauss – generativ AI først til Galaxy S24

Dum advokat består eksamen

Konklusionerne er også en lille lussing til nogle af de vildere påstande, som store navne inden for AI-området er kommet med.

“Denne store forskel i præstation står i kontrast til den seneste trend, hvor LLM’er udkonkurrerer mennesker i opgaver, der kræver professionel kundskab som jura eller kemi,” skriver forskerne i rapporten.

I januar hævdede en konkurrent til OpenAI, Anthropic, at deres AI-assistent Claude havde bestået en anonymt rettet eksamen i jura og økonomi ved George Mason University.

I sin dokumentation af GPT-4 hævder OpenAI desuden, at deres model “udviser menneskelige præstationer i flere professionelle og akademiske benchmarks og har bestået en simuleret advokateksamen med et resultat blandt top 10 procent af deltagerne.”

Men det er blevet noget af en hektisk debat, hvordan man overhovedet kan undersøge disse systemers intelligens. AI-sprogmodeller som GPT-4 har stadig massevis af fejl og kan ikke altid skelne mellem sandhed og fiktion. Man kan med andre ord spørge sig selv, hvordan en algoritme skal kunne bestå en advokateksamen, hvis den ikke engang kan afgøre, om Australien eksisterer eller ej?

AI-sprogmodeller har overfladisk og begrænset forståelse

Yann LeCun fra Meta har længe været åbent kritisk over for dommedagssnakken om AI. Han har gentagende gange nedtonet påstande om, at vi står over for en eksistentiel trussel i form af AGI.

“Store sprogmodeller har tydeligvis en vis forståelse for det, de har læst og genererer,” skrev han på X i weekenden og fortsatte: “Men denne forståelse er meget begrænset og overfladisk. Ellers ville de ikke opdigte så meget og ville ikke begå fejl, der står i modsætning til sund fornuft.”

Det er dog ikke nødvendigvis altid tilfældet. Hvis vi skal tro de seneste rygter, er OpenAI i gang med at arbejde på en ny generation af modellen med navnet Q* (Q Star). Den kan angiveligt introducere deduktive ræsonnementer og “planlægning”.

Om den kan klare sig bedre GPT-4 i Metas GAIA-test, må vi vente og se.

Læs også: OpenAI lancerer gratis stemmestyring i ChatGPT midt i direktørkaos