Undersøgelse: AI-chatbots er ikke til at stole på

Ny undersøgelse viser, at populære AI-chatbots som ChatGPT, Perplexity, Gemini og Copilot i 6 ud af 10 tilfælde ikke kan henvise korrekt til originale nyhedsartikler.

Undersøgelse: AI-chatbots er ikke til at stole på

Ny undersøgelse viser, at man ikke kan regne med AI-chatbots, når de skal undersøge internettet for oplysninger om nyhedsartikler. Ofte giver de helt forkerte svar uden at deklarere, at der er usikkerhed om svarenes korrekthed.

Undersøgelsen er blevet offentliggjort i tidsskriftet Columbia Journalism Review.

Se også: Få gratis adgang til alle AI-chatbots

Gav forkerte svar 6 ud af 10 gange

Forskerne testede otte chatbots, som angiveligt skulle være i stand til at foretage websøgninger for at finde de nyeste faktuelle oplysninger. De otte chatbots er:

  • ChatGPT
  • Perplexity
  • Perplexity Pro
  • DeepSeek
  • Microsoft Copilot
  • Grok-2
  • Grok-3
  • Gemini
Hver lille firkant repræsenterer én af 200 prompts, hvor forskerne undersøge en chatbots evne til at identificere den korrekte nyhedsartikel. Foto: Columbia Journalism Review

Den ellers simple opgave bestod i at identificere en original nyhedsartikel fra 20 forskellige nyhedsmedier, hvor i alt 200 uddrag indgår. Derudover skulle AI-chatbotsene oplyse overskriften, linket til artiklen, udgivelsestidspunkt, forfatter og lave en korrekt kildehenvisning.

I gennemsnit løste de otte AI-chatbots opgaven korrekt i under 40 procent af tilfældene. Bedst var Perplexity, som var korrekt 63 procent af gangene. Grok-3 havde en fejlrate på hele 94 procent.

ChatGPT identificerede hele 134 ud af 200 artikler forkert, men signalerede kun usikkerhed om resultatet 15 af gangene og afviste aldrig at give et svar.

Chatbots fabrikerede også ofte links, henviste til citatartikler frem for de originale nyhedsartikler og undlod at gøre opmærksom på usikkerhed om resultaterne.

Premium-versioner af chatbotsene fremstod interessant nok mere sikre i sine svar end de gratis versioner, selv om de ikke var det.

På trods af, at mediet Texas Tribune samarbejder med Perplexity AI, citerede AI-chatbotten Perplexity i stedet en uofficiel version af nyhedsartiklen.

De medier, der har indgået en kommerciel aftale med AI-virksomhederne om at stille nyhedsindhold til rådighed, bliver ikke nødvendigvis identificeret mere korrekt, viser studiet også.

Alt i alt er der altså plads til stor forbedring, når det gælder AI-chatbots evne til at henvise til de korrekte nyhedsartikler.

Perspektivering

Som undersøgelsen også fremhæver, er der stor forskel på kvaliteten af AI-chatbots, selv om de langt hen ad vejen gør det samme. De opfører sig ganske enkelt vidt forskelligt og giver svar af meget forskellig kvalitet.

Vi har lavet en stor sammenligning af de mest populære AI-chatbots på markedet, så du kan finde de bedste AI-chatbots.

Se også: Hvilken AI-chatbot skal jeg vælge? Se de 14 bedste chatbots