Facebooks nye AI kan efterligne stemmer på to sekunder

Facebook har smidt en ny type generativ AI på gaden, Voicebox, der kan efterligne andres stemmer ud fra to sekunders lydklip. Det lugter af sikkerhedsproblemer.

Facebooks nye AI kan efterligne stemmer på to sekunder

Facebook – eller ret beset Meta –  har præsenteret sin nye tekst-til-tale AI, der kan redigere eksisterende lydfiler, tale seks sprog og, noget mindre behageligt, efterligne dine venner og families stemmer.

Meta skriver i en pressemeddelelse, at der er tale om et gennembrud inden for generativ AI til tale.

Se også: Mark Zuckerberg og Facebook bevæger sig mod afgrunden

AI til talebaserede opgaver

Produktet kaldes for Voicebox og beskrives som en avanceret AI-model, der kan udføre talebaserede opgaver, også opgaver som den ikke var specifikt trænet til at gøre gennem særlige læringsmodeller.

Alt, du behøver at gøre for at efterligne nogens stemme, er at fodre programmet med et lydklip, der kan være så kort som to sekunder.

Voicebox kan så matche lydstilen og med en tekst og et par tryk på nogle knapper, så får man en AI-version af vennen eller familiemedlemmets stemme.

Se også: Sammenlign priser på mobiltelefoner

Åbner op for et hav af misbrugsmuligheder

Meta forklarer, at teknologien er rettet mod synshandicappede, der kan høre skriftlige beskeder fra venner med deres stemmer. Det handler jo i så fald om tilgængelighed med teknikkens hjælp, og i den slags tilfælde er den nye AI helt sikkert en hjælp.

Hele konceptet med at efterligne din bedste vens stemme er dog stadig noget ubehagelig, og der er også nogle problemer med risikoen for misbrug. Kan man efterligne en persons stemme ved hjælp af et lydklip på blot to sekunder, kan man mere eller mindre efterligne hvem som helst, så længe man har et lydklip, hvor personen taler.

Det åbner op for et hav af misbrugsmuligheder som for eksempel phishing, misinformation og selv deepfake porno i lydformat.

Se også: Billige mobilabonnementer med masser af data

Voicebox er for farligt til at dele offentligt

Heldigvis er Meta udmærket klar over dette, så de holder modeller og dens kode som såkaldt ’closed source’ indtil videre.

I modsætning til open source er VoiceBox altså ikke tilgængeligt for alle til at bruge, studere, modificere eller distribuere. I stedet skal brugerne købe eller få en licens til at bruge softwaren og så får man typisk begrænset adgang til programmets underliggende kode.

“Der er mange spændende anvendelsesmuligheder for generative talemodeller, men på grund af de potentielle risici for misbrug gør vi ikke Voicebox-modellen eller -koden offentligt tilgængelig på nuværende tidspunkt,” skriver Meta på en separat forskningsblog.

Meta vurderer altså, at Voicebox er et så stærkt men samtidig betændt værktøj, at de ikke tør dele det offentligt, da potentialet for misbrug og utilsigtet skade er for stor.