Til hovedinnhold

Microsoft hevder de kan lage en perfekt kopi av stemmen din

Trenger bare et lydklipp på noen sekunder.

Midjourney, prompt: «voice AI 4K illustration»

Det var torsdag forrige uke at Microsoft-forskere annonserte at de arbeidet med en tekst-til-tale-modell basert på kunstig intelligens, kalt VALL-E. Basert på et lite lydklipp skal den kunne skape en overbevisende simulasjon av stemmen din, på en måte som både ivaretar opphavspersonens emosjonelle tonefall og det akustiske miljøet rundt.

Utover å kunne brukes for å oversette tekst til tale, hevder skaperne at VALL-E også vil kunne brukes til taleredigering, hvor et opptak kan forandres basert på et manus.

Altså, at man får det til å høres ut som at man sier noe man opprinnelig ikke sa. I tillegg skal det også kunne skape annet innhold når kombinert med andre generative Kunstig Intelligens(KI)-modeller so GPT-3, skriver ArsTechnica.

Her er et lite eksempel på hvordan Vall-E-stemmen høres ut:

Grunnleggende ny teknologi

VALL-E er bygget på EnCodec, som er en lydmodell kunngjort av Meta i oktober 2022. Microsoft selv omtaler VALL-E som en «nevral kodek-språkmodell», hvilket i praksis betyr at det er en nevral modell med en algoritme som er i stand til å transformere informasjon om til noe annet.

Skal vi tro forskernes egen rapport, er det også dette som skiller VALL-E fra andre tekst-til-tale-metoder, fordi disse syntetiserer tale ved å manipulere bølgeformer. VALL-E på sin side bryter ned informasjonen til små komponenter (omtalt som «tokens»), og bruker treningsdata (altså data den har blitt opplært med) for å matche hvordan stemmen ville høres ut hvis den uttalte noe annet enn det den gjør i løpet av det tre sekunders opptaket.

VALL-Es talesyntesefunksjoner skal være trent på et lydbibliotek kalt LibriLight, som er satt sammen av Meta. Dette lydbiblioteket skal inneholde 60.000 timer med engelskspråklig tale fra mer enn 7000 personer. Det skal hovedsakelig være hentet fra LibriVox-lydbøker, som er offentlig tilgjengelige lydbøker lest inn av frivillige verden over. Forutsetningen for at VALL-E skal gi et best mulig resultat er at det tre sekunders lydopptaket også samsvarer med en stemme i disse treningsdataene.

VALL-E, Microsoft

– Modellen kan bli misbrukt

Ettersom talemodellen vil kunne etterligne en persons taleidentitet bærer den også med seg mulighet for å bli misbrukt. For eksempel ved etterligne en spesifikk persons stemme for å bruke til å lure til seg informasjon.

Dette er også Microsofts forskere klar over, og skriver derfor at de arbeider med modeller for å forhindre denne typen misbruk.

– For å redusere slike risikoer er det mulig å bygge en gjenkjenningsmodell for å se om et lydklipp ble laget av VALL-E. Vi vil også sette Microsoft KI-prinsipper i praksis når vi videreutvikler modellene.

Selv om talemodellen enda ikke er tilgjengelig for offentligheten enda, har Microsoft tilgjengeliggjort en rekke lydeksempler på VALL-Es nettside. Her står det listet fire ulike taleeksempler.

Først ut er «Speaker Prompt», som er det tresekunders lydopptaket som VALL-E er ment å etterligne. Deretter følger «Ground Truth» som er et slags kontroll-lydopptak med allerede eksisterende opptak av den samme personen, som sier en gitt setning for sammenligningsgrunnlag. Dernest følger «Baseline», som er et eksempel på en fremstilling gjennomført av en konvensjonell tekst-til-tale-metode. Og sist, men ikke minst, er «VALL-E» sin fremstilling.

annonse