Google indrømmer at have pyntet på video af ny AI-sprogmodel
Google har annonceret Gemini – en samling af tre kraftfulde AI-sprogmodeller, som allerede er ved at blive udrullet i AI-chatbotten Bard. Men nærmest allerede inden folk har fået mulighed for at prøve kræfter med de nye sprogmodeller beskyldes Google for at lyve om deres evner.
I en kronik i avisen Bloomberg beskyldes Google for at vise Geminis evner på en misvisende måde i en video i forbindelse med annonceringen sidste uge. Google viste en imponerende demovideo ved annonceringen.
Men ifølge klummeskribent og tidligere journalist hos Wall Street Journal og Forbes Parmy Olson viser videoen en AI-sprogmodel, der kan lidt mere, end hvad der i virkeligheden er tilfældet.
Læs også: Googles chatbot Bard bliver bedre med den nye sprogmodel Gemini
Klipper og klistrer i videoen “for korthedens skyld”
Den seks minutter lange video viser Geminis multimodale evner – for eksempel evnen til at kombinere mundtlige prompts med billedgenkendelse. Gemini lader til hurtigt at genkende billeder, selv når der er tale om tvetydige billeder. Den svarer også på blot sekunder og følger en papirkugle skjult under en kop og og løser et væld af andre imponerende opgaver i realtid.
Klikker man imidlertid på beskrivelsen af videoen, finder man en ikke helt uvæsentlig ansvarsfraskrivelse fra Google: “I forbindelse med denne demo er latenstiden blevet reduceret, og Gemini-outputtene er blevet forkortet for korthedens skyld.”
Det er netop det, som Parmy Olson slår ned på. I hendes kronik indrømmer Google da også, at videoen ikke foregår i realtid med mundtlige prompts. I stedet har Google brugt stillbilleder fra råoptagelser og derefter skrevet tekstbeskeder, som Gemini svarede på.
”Det er helt anderledes end det, som Google syntes at antyde: at en person kunne have en flydende stemmesamtale med Gemini, samtidig med at den så og reagerede i realtid på verdenen omkring sig,” lyder det fra klummeskribenten.
Var imponerende demo af Google Duplex ægte?
Det skal dog siges, at mange selskaber har det med at redigere sine demovideoer – især når de vil undgå tekniske småfejl, der kan forekomme under en demonstration. Det er ikke ualmindeligt at justere lidt her og der, men Google har en historik med tvivlsomme demovideoer.
Mange har derfor spekuleret på, om den virale demo af Google Duplex – altså AI-assistenten, der ringede til en frisør og restaurant for at bestille tid og bord – var ægte. Der var nemlig ingen lyde fra omgivelserne, og de ansatte, der svarede i telefon, var måske lidt for hjælpsomme.
Parmy Olson er ikke i tvivl om, at Google pynter på Geminis evner for at vildlede folk fra det faktum, at Gemini stadig halter efter OpenAI’s GPT-sprogmodeller – senest GPT-4.
Google: Ægte prompts og outputs – bare forkortede
Den forklaring køber Google dog ikke. Da it-giganten blev spurgt om videoens ægthed, henviste den til et X-indlæg fra Oriol Vinyals, der er vicedirektør for forskning og leder for deep learning hos Google DeepMind. Heri forklarer han produktionen af videoen:
“Alle brugerprompts og -outputs i videoen er ægte, men forkortet for korthedens skyld. Videoen illustrerer, hvordan multimode-brugeroplevelser bygget med Gemini kan se ud. Vi lavede den for at inspirere udviklere,” siger Oriol Vinyals.
Han tilføjer, at holdet gav Gemini billeder og tekst og bad den svare ved at forudsige, hvad der skulle komme derefter.
Det er én måde at gå til det på. Det kan diskuteres, om det er vejen frem for Google, som for den brede offentlighed ser ud til at være blevet taget helt på sengen af OpenAI’s enorme succes i år. En måske mere effektiv måde at inspirere udviklere på ville snarere være lade journalister og udviklere prøve og teste AI-løsningerne til deres grænser i stedet for at udgive nøje redigerede videoklip, der viser en sandhed med modifikationer.
Den ene af de tre Gemini-sprogmodeller – Gemini Pro – bliver inden længe udrullet til Google Bard i Danmark.
Læs også: Googles AI vil hjælpe dig med at skrive tekst i Chrome