Facebooks nye AI kan efterligne stemmer på to sekunder
Facebook – eller ret beset Meta – har præsenteret sin nye tekst-til-tale AI, der kan redigere eksisterende lydfiler, tale seks sprog og, noget mindre behageligt, efterligne dine venner og families stemmer.
Meta skriver i en pressemeddelelse, at der er tale om et gennembrud inden for generativ AI til tale.
Se også: Mark Zuckerberg og Facebook bevæger sig mod afgrunden
AI til talebaserede opgaver
Produktet kaldes for Voicebox og beskrives som en avanceret AI-model, der kan udføre talebaserede opgaver, også opgaver som den ikke var specifikt trænet til at gøre gennem særlige læringsmodeller.
Alt, du behøver at gøre for at efterligne nogens stemme, er at fodre programmet med et lydklip, der kan være så kort som to sekunder.
Voicebox kan så matche lydstilen og med en tekst og et par tryk på nogle knapper, så får man en AI-version af vennen eller familiemedlemmets stemme.
Se også: Sammenlign priser på mobiltelefoner
Åbner op for et hav af misbrugsmuligheder
Meta forklarer, at teknologien er rettet mod synshandicappede, der kan høre skriftlige beskeder fra venner med deres stemmer. Det handler jo i så fald om tilgængelighed med teknikkens hjælp, og i den slags tilfælde er den nye AI helt sikkert en hjælp.
Hele konceptet med at efterligne din bedste vens stemme er dog stadig noget ubehagelig, og der er også nogle problemer med risikoen for misbrug. Kan man efterligne en persons stemme ved hjælp af et lydklip på blot to sekunder, kan man mere eller mindre efterligne hvem som helst, så længe man har et lydklip, hvor personen taler.
Det åbner op for et hav af misbrugsmuligheder som for eksempel phishing, misinformation og selv deepfake porno i lydformat.
Se også: Billige mobilabonnementer med masser af data
Voicebox er for farligt til at dele offentligt
Heldigvis er Meta udmærket klar over dette, så de holder modeller og dens kode som såkaldt ’closed source’ indtil videre.
I modsætning til open source er VoiceBox altså ikke tilgængeligt for alle til at bruge, studere, modificere eller distribuere. I stedet skal brugerne købe eller få en licens til at bruge softwaren og så får man typisk begrænset adgang til programmets underliggende kode.
“Der er mange spændende anvendelsesmuligheder for generative talemodeller, men på grund af de potentielle risici for misbrug gør vi ikke Voicebox-modellen eller -koden offentligt tilgængelig på nuværende tidspunkt,” skriver Meta på en separat forskningsblog.
Meta vurderer altså, at Voicebox er et så stærkt men samtidig betændt værktøj, at de ikke tør dele det offentligt, da potentialet for misbrug og utilsigtet skade er for stor.