Google Code
Seit August des letzten Jahres finanziert Google die Weiterentwicklung der Texterkennung Tesseract. Mittlerweile wurde das Projekt in OCRopus umbenannt und kann erste Erfolge vorweisen: Im 3. Quartal diesen Jahres soll die erste offizielle Alpha-Version erscheinen, auf die endgültige Version mit grafischer Oberfläche müssen wir allerdings noch über 1,5 Jahre warten. Das Projekt OCRopus wird derzeit im Auftrag von Google am Deutschen Forschungszentrum für künstliche Intelligenz entwickelt und mit englischen Texten gefüttert. Um eine nahezu 100%ige Trefferquote zu erreichen gleicht das Tool die erkannten Texte mit riesigen Datenbanken ab und kann so von selbst erkennen ob der erkannte Text Sinn macht oder lieber noch ein Erkennungsvorgang gestartet werden sollte. Aus diesem Grund funktioniert das Tool zur Zeit auch nur mit englischen Texten. Die erste Alpha-Version wurde für das 3. Quartal diesen Jahres angekündigt, die Beta-Version soll anfang 2008 erscheinen und die erste endgültige Version mit einer grafischen Benutzeroberfläche dürfen wir nicht vor dem 3. Quartal 2008 erwarten. Ich bin gespannt wie Google das fertige Script dann für sich nutzen wird und ob es wirklich eine 100%ige Erkennungsrate haben soll. » Projekt OCRopus » Ankündigung im Code-Blog [heise]
Google Code
Das Google-Team hat eine freie Texterkennungs-Software namens Tesseract freigegeben und bietet es bei SourceForge zum Download an. Die Software ist bisher nur in der Lage einfache und mehrspaltige Texte zu erkennen, kann aber mit einfachen und gar aufwendigen Layouts noch nicht viel anfangen. Das "noch" ist fett geschrieben weil diese Funktion noch so sehr in den Kinderschuhen steckt dass Google es nicht für die Öffentlichkeit freigegeben hat - aber es ist in Entwicklung und soll teilweise schon funktionieren. Außerdem wäre noch zu erwähnen dass Google das Projekt Tesseract nur fortführt und nicht selbst entwickelt hat. Den Anstoß dazu hat Hewlett Packard in den Jahren 1985 - 1995 gegeben. Das ganze besitzt auch noch keinerlei Benutzeroberfläche und steht nur als einfaches Modul für Programmierer zur Verfügung. Ich könnte mir aber vorstellen dass Google gerade schon dabei ist den Code in seine Programme zu integrieren und mit der nächsten Version auszuliefern. Google Desktop könnte dann auch Texte in Bildern durchsuchen und Picasa natürlich genau das gleiche. Es wird auch wirklich Zeit dass sich im Bereich der Texterkennung mal etwas tut und es endlich eine so sehr funktionierende Methode gibt dass man sich komplett auf das verlassen kann was die Software da ausspuckt. Im Laufe der Jahre habe ich viele Programme ausprobiert, und jedes hat mir durch das korrigieren der zahlreichen Fehler mehr Arbeit bereitet als wenn ich es selbst abgetippt hätte... » Projekt Tesseract » Ankündigung im Google Code Blog