Avhengig av hvert nettverks sikkerhet og spådom trekker programvaren en konklusjon om hva som vil skje. MITs løsning skal være vesentlig mer treffsikker enn tidligere varianter. (Bilde: Skjermdump, Youtube/MIT)

MITs «spåmaskin» kan forutse hva som skjer i favorittserien din

Forskere matet et dataprogram med 600 timer video.

For tiden jobbes det masse med maskinintelligens av ymse slag, og Massachusetts Institute of Technology (MIT) utenfor Boston er naturligvis på ballen. Forskerne der har nemlig utviklet en algoritme som skal klare å spå hva som skjer i scener fra film og TV-serier.

Klem, kyss eller kaffekopp

Løsningen har to ulike måter å virke på. Den ene går ut på at den skal spå hva slags handling to mennesker på skjermen kan tenkes å begå, enten det er en klem, håndtrykk, et kyss eller en god gammeldags «high five». Den andre spåoppgaven handler om objekter som snart dukker opp på skjermen, og her er utgangspunktet at objekter eller handlinger som alt er der gjerne gir en indikasjon på hva som vil skje.

Fulltreff: Maskinen treffer bare riktig i 43 prosent av tilfellene, men heller ikke mennesker er helt treffsikre.
Fulltreff: Maskinen treffer bare riktig i 43 prosent av tilfellene, men heller ikke mennesker er helt treffsikre. Foto: Skjermdump, Youtube/MIT

Forskerne ved Computer Science and Artificial Intelligence Laboratory (CSAIL) understreker selv at løsningen slett ikke er ufeilbarlig. Den mest treffsikre delen er den som forutser handlinger mellom mennesker som møtes, men selv her traff den kun riktig i 43 prosent av tilfellene. Det skal likevel være vesentlig bedre enn for løsningene som alt finnes. Disse har så langt klart å komme opp i en 36 prosent treffsikkerhet.

Når det gjelder objekter som ventes å dukke opp er algoritmene langt mindre treffsikre. Bare 11 prosent av tiden treffer maskinen, men dette skal og være et vesentlig fremskritt, og 30 prosent mer treffsikkert enn tidligere.

Vi mistenker at noe av årsaken til at treffsikkerheten går ned for objekter er at det kan være snakk om veldig mange ulike objekter, sammenliknet med de menneskelige interaksjonene som grovt kan brytes ned til fire typer handlinger. MITs artikkel om gjennombruddet sier imidlertid lite om årsakene til at treffprosenten er som den er.

Trenger ikke å nå 100 prosent

Et svært forenklet bilde på hvordan MITs programvare jobber.
Et svært forenklet bilde på hvordan MITs programvare jobber. Foto: Skjermdump, Youtube/MIT

Det universitetet sier noe om derimot, er vår egen evne til å spå på samme måte. Der maskinen nå treffer på handlingsspådommen i 43 prosent av tilfellene, treffer mennesker 71 prosent av tiden. Dermed behøver ikke en slik løsning å komme i nærheten av 100 prosent for å bli mer treffsikre enn deg og meg. Og det sier muligens også noe om tendensen vi mennesker har til å bomme på både high fives og håndtrykk oss imellom.

Blant seriene maskinen har blitt fôret med nevnes The Office og Desperate Housewives, men å spå innholdet i slike serier har begrenset nytteverdi og brukes tilsynelatende mest for å være en lett tilgjengelig og morsom måte å forbedre slike løsninger på. Det finnes tross alt utallige timer med slike opptak i verden.

I fremtiden: Tilkaller hjelp før uhellet har skjedd

På sikt kan teknologien bli nyttig for eksempel til å forutse hva som vil skje i videostrømmen fra et sikkerhetskamera. Kanskje er noen i ferd med å falle, slik at en ambulanse kan tilkalles automatisk? Også roboter nevnes som et område der slike løsninger kan gi nytteverdi.

Maskinen bruker såkalt «deep learning» og nevrale nettverk for å fungere, teknikker som går ut på å herme etter måten deler av den menneskelige hjernen fungerer. Fremfor å spå plasseringer for enkeltpiksler i bilder, lager den seg i stedet et overblikk over elementene bildet består av, så som ansikter, kaffekopper og annet.

Ved å ha tilgang på så voldsomme mengder data som den har, forsøker den å identifisere mønster basert på objekter og handlinger.

Flere samtidige deler av programvaren forsøker å spå hva som vil skje, og basert på hvor mange nettverk som har spådd et utfall, og med hvor stor sikkerhet spådommen ble gjort, trekker den en konklusjon og satser på den.

Det vi lurer mest på er om maskinen har sett TV-serien Person of Interest.

Andre løsninger som baserer seg på beslektet teknologi er for eksempel Googles Deep Dream, som nylig ble satt til å generere marerittaktige bilder i VR, og IBMs kognitive datamaskin, Watson, som blant annet hjelper til med kreftforskning.

Slik presenterer MIT og CSAIL den nye teknologien.

(Kilde: news.mit.edu via gizmodo.com)

Norges beste mobilabonnement

Juni 2017

Kåret av Tek-redaksjonen

Jeg bruker lite data:

Ice Mobil 1 GB


Jeg bruker middels mye data:

Telio Go 5 GB


Jeg bruker mye data:

Komplett Maxiflex 12 GB


Jeg er superbruker:

Komplett Megaflex 30 GB


Finn billigste abonnement i vår mobilkalkulator

Forsiden akkurat nå

Til toppen