Meta har laget en AI-talegenerator

Men tør ikke gjøre den tilgjengelig for publikum.

Meta har laget en talegenerator som er drevet av AI. Kamera Meta

Meta har laget en AI-basert talegenerator, som hevdes å være bedre enn noe annet på markedet. Likevel nekter de å gjøre den tilgjengelig for offentligheten.

I en fersk pressemelding skriver Meta at de har gjort et gjennombrudd innen talegenerering- og redigering. Deres nye «Voicebox» skal angivelig være for tale, det Midjourney er for bilder og ChatGPT for tekst.

Men selv om de viser frem en rekke funksjoner i en promovideo, opplyser de samtidig at de ikke på nåværende tidspunkt ønsker å gjøre Voicebox tilgjengelig for publikum.

– Vi erkjenner at denne teknologien medfører potensial for misbruk og utilsiktet skade, heter det i en offentlig uttalelse.

– Det er mange spennende brukstilfeller for generative talemodeller, men på grunn av risikoen for misbruk, gjør vi ikke Voicebox-modellen eller koden offentlig tilgjengelig for øyeblikket.

(På desktop kan du høyreklikke på videoen og vise «vis alle kontroller» for å aktivere lyd. På mobil kan du klikke her.)

Skal være bedre enn andre talegeneratorer

Voicebox skal kunne brukes til å redigere lydklipp, fjerne støy fra lydopptak, samt å kunne erstatte feilskrevne ord. Det er med andre ord som et bilderedigeringsprogram for å rydde opp i fotografier, bare for lyd.

Den skal også være helt fint i stand til å gjengi tale på flere språk, henholdsvis engelsk, fransk, tysk, spansk, polsk og portugisisk. Voicebox skal også være i stand til å gjengi tale på et annet språk enn det språket man skrev inn teksten i utgangspunktet.

Det finnes allerede flere talegeneratorer, slik som ElevenLabs og Speechify. Forskjellen er at disse krever enorme mengder data for å kunne generere tale. Voicebox skal derimot ikke trenge dette fordi Meta har laget en helt ny treningsmetode, som de kaller Flow Matching.

Angivelig skal Metas kunstige intelligens ha overgått tidligere toppmodeller både hva gjelder forståelighet (1,9 prosent ordfeilfrekvens mot 5,9 prosent) og lydlikhet (en sammensatt poengsum på 0,681 til andre systemers 0,580), skriver Engadget.

19. juni 2023, 16:25

