GoogleWatchBlog

Tesseract heißt OCRopus – erste Version im 3. Quartal 2007

» Web-Version «


Seit August des letzten Jahres finanziert Google die Weiterentwicklung der Texterkennung Tesseract. Mittlerweile wurde das Projekt in OCRopus umbenannt und kann erste Erfolge vorweisen: Im 3. Quartal diesen Jahres soll die erste offizielle Alpha-Version erscheinen, auf die endgültige Version mit grafischer Oberfläche müssen wir allerdings noch über 1,5 Jahre warten.

Das Projekt OCRopus wird derzeit im Auftrag von Google am Deutschen Forschungszentrum für künstliche Intelligenz entwickelt und mit englischen Texten gefüttert. Um eine nahezu 100%ige Trefferquote zu erreichen gleicht das Tool die erkannten Texte mit riesigen Datenbanken ab und kann so von selbst erkennen ob der erkannte Text Sinn macht oder lieber noch ein Erkennungsvorgang gestartet werden sollte. Aus diesem Grund funktioniert das Tool zur Zeit auch nur mit englischen Texten.

Die erste Alpha-Version wurde für das 3. Quartal diesen Jahres angekündigt, die Beta-Version soll anfang 2008 erscheinen und die erste endgültige Version mit einer grafischen Benutzeroberfläche dürfen wir nicht vor dem 3. Quartal 2008 erwarten. Ich bin gespannt wie Google das fertige Script dann für sich nutzen wird und ob es wirklich eine 100%ige Erkennungsrate haben soll.

» Projekt OCRopus
» Ankündigung im Code-Blog

[heise]


Keine Google-News mehr verpassen:
GoogleWatchBlog bei Google News abonnieren | Jetzt den GoogleWatchBlog-Newsletter abonnieren