Nå kommer en nettmøte-revolusjon

Nvidia bruker animasjonsteknikk til videosamtaler.

«Vanlig» videokodek h.264 til venstre, mens Nvidias dataassisterte teknologi til høyre. Begge har en veldig lav bitrate, cirka 0,1250 KB per bilde.

De av oss som kan jobbe hjemmefra har møtt en ny hverdag etter at viruspandemien startet. Møterom og kontorer er byttet ut med Zoom, Skype og Teams. Webkamera var lenge utsolgt og svinaktig dyre, men selv om den situasjonen nå har normalisert seg - er det et par ting vi ikke blir kvitt.

Ulyder under selve videomøtene, og de stadige avbruddene på grunn av flaskehalser i nettet. Pandemi eller ikke er det også mange som må jobbe langt fra folk, og derfor ikke har båndbredden til video i utgangspunktet.

Etselskap som jobber mye med å forbedre videokommunikasjon er Nvidia, som du kanskje mest kjenner til som en grafikkortprodusent.

De har for eksempel en RTX Voice-funksjon som bruker kunstig intelligens og grafikkprosessorer til å eliminere støy i bakgrunnen, og har allerede gjort nettmøter mindre utfordrende.

Nylanseringen de viste frem denne uken har et mye vanskeligere navn - men jeg tror man trygt kan si at dette er en bombe for alle som jobber hjemmefra, eller må kommunisere fra steder der nettilgangen er dårlig.

«AI Video Compression» er navnet på teknikken, og det kan oversettes til videokomprimering ved hjelp av kunstig intelligens. Hemmeligheten er at det ikke egentlig fremstår som en videokomprimering i det hele tatt. Dette er bevegelsesregistrering, såkalt «Motion Capture», eller bare mocap.

Bytter ut video med bevegelsessporing

Nvidias nye løsning overfører ikke video hele tiden. I stedet overfører den såkalte keyframes - de viktige hele bildene som det tas utgangspunkt i. Muligens også litt video for å vise hvordan skygger faller og for å få med viktige tredimensjonale deler av bildet.

Men så fort det viktigste er overført overfører ikke løsningen lenger video. Den oppdaterer keyframen fra tid til annen, men i hovedsak er det bare bevegelsesdata for viktige punkter i ansiktet ditt som overføres. I andre enden gjøres bevegelsesdataene om ved at datamaskinen bruker modellen av ansiktet ditt som allerede er sendt over som den opprinnelige keyframen.

Denne typen bevegelsessporing er svært lik den som har sørget for at superhelter og helsprø animerte skapninger har fått liv. Når Mark Ruffalo blir til en sint, stor og grønn Hulk i Avengers-filmene, er det ikke spesialeffekter som er malt på kroppen hans. I stedet har hans bevegelser blitt sporet av en mengde kamera, og dataene har blitt overført til en datamodell av den grønne kjempen.

Kan by på artige feil

Funksjonen skal ifølge Nvidia fungere også med maske på, men i demonstrasjonsvideoen fra Nvidia ser vi også begrensningene. Masken beveger seg nesten like mye fra side til side som opp og ned når personen snakker. Det tyder på at selv om datamaskinene får til å registrere disse viktige punktene i ansiktet også når masken er på, blir det ikke helt presist. Men ut fra Nvidias egen lanseringsvideo blir det likevel bedre enn den pikselerte tradisjonelle videoen overført med samme båndbreddekrav.

En kan også se for seg en mengde feil, morsomheter og andre ting vi ikke kan tillate oss i dag. Enn om noen forlater nettmøtet og lar en toåring i barnestol stå igjen foran PC-en? En må regne med at Nvidia har tenkt på slikt, og passer på at avbrudd i videoen registreres, og bytter ut keyframes ofte. Men hvis de ikke hadde gjort det kunne man sett for seg bildet av den voksne fortsette i andre enden - men med barnets mimikk.

At dette er fullt mulig er det i hvert fall ingen tvil om - for Nvidia selv omtaler dataanimerte avatarer som en mulighet folk kan benytte seg av med denne teknologien. Hvis noen virkelig ville dra i land markedsføringspotensialet her burde neste video være nettopp nevnte Marc Ruffalo som har Zoom-møte som Hulken.

Et vel så artig tenkt tilfelle kan være om den kunstige intelligensen bommer i oppmerking av de biometriske punktene i ansiktet ditt. Det kan forekomme - og da risikerer man plutselig å få bevegelsene sporet for høyre munnvike opp ved øret, for eksempel. Datasyn er fortsatt en såpass ung teknologi at slike feil kan skje.

Ekstreme konsekvenser

Å bruke denne teknikken til videokommunikasjon gir en haug nye muligheter. Ikke bare kan du fremstå som sjølvaste Hulken - vi har strengt tatt hatt liknende muligheter lenge. Det virkelig spennende er at hodet ditt for eksempel kan belyses bedre, eller snus så det rettes direkte mot den du prater med - uavhengig av vinkelen på kameraet på PC-en din.

Ved siden av det kan det ekstremt lave båndbreddebehovet føre til at steder og situasjoner som tidligere bare tillot e-post og lydkommunikasjon nå kan få fullverdig videokommunikasjon.

Det betyr for eksempel situasjoner der du normalt henter datatilkoblingen din fra satellitter og betaler det hvite ut av øyet for den lille datamengden du har til rådighet. Kanskje er du på en svak radiotilkobling på jakthytta langt fra folk? I så fall kan du potensielt se dine nærmeste. For forskere stasjonert i polområdene, for eksempel, burde hverdagen kunne bli vesentlig annerledes.

Men for deg og meg betyr det at selv om båndbredden øker rundt oss, kan vi også ferdes i områder der båndbredden er dårlig uten å miste muligheten til å ha det videomøtet med familie eller jobb.

Og jeg har på følelsen av at denne ekstreme «komprimeringen» er så nyskapende at vi kan komme til å støte på den også i andre sammenhenger. Enn om det var et valg man kunne bruke på Youtube-videoer? Hvis de i hovedsak besto av et pratende ansikt kunne kravene for datamengder overført blitt drastisk lavere.

Nå er dette en Nvidia-teknologi foreløpig. Men flere aktører jobber med liknende løsninger i større eller mindre grad. Så man kan og se for seg databehovet for mobiltjenester som TikTok gå i bakken etter hvert.

Det er ikke så ofte gjennombrudd er av en størrelsesorden som skaper et skille mellom før og etter. Nvidias nye videokomprimering kan være ett av de gjennombruddene.

annonse