Google gir ut OCR-programvare

Alternativ tekst mangler

Tesseract ble originalt utviklet av Hewlett-Packard mellom 1985 og 1995, og ble i 1995 kåret til en av verdens tre beste tekstgjenkjenningsmotorer. HP forlot kort etterpå tekstgjenkjenningsbransjen, og Tesseract ble ikke umiddelbart kjøpt av andre. Tekstgjenkjenningsprogramvare kan automatisk konvertere teksten på et innlest bilde til vanlig tekst. Nå har Google børstet støvet av motoren, og lagt den ut som et åpen-kildekodeprosjekt på SourceForge.

Gjenkjenningsmotoren støtter for øyeblikket kun engelskspråklige tekster, og har ikke støtte for gjenkjenning av tekst i flere kolonner. Google innrømmer også at Tesseract ikke er like nøyaktig som gjenkjenningspakkene som finnes på markedet i dag, men at den likevel er mye bedre enn hva som finnes blant åpen kildekode.

Google er selv svært interesserte i tekstgjenkjenning, siden de driver et innlesingsprosjekt av bøker i flere av verdens største biblioteker. Nylig lanserte Google muligheten for å laste ned hele bøker som er sluppet ut som offentlig eiendom.

Samtidig annonserte Google også at de leter etter ingeniører som er gode på tekstgjenkjenning.

Kilde: (Google)

Kommentarer (14)

Norges beste mobilabonnement

Mars 2017

Kåret av Tek-redaksjonen

Jeg bruker lite data:

Komplett MiniFlex 1GB


Jeg bruker middels mye data:

Telio FriBruk 5GB+EU


Jeg bruker mye data:

Komplett MaxiFlex 10GB


Jeg er superbruker:

Komplett MegaFlex 30GB


Finn billigste abonnement i vår mobilkalkulator

Forsiden akkurat nå

Til toppen