Projekt Tesseract: Texterkennung von Google

Google Code
Das Google-Team hat eine freie Texterkennungs-Software namens Tesseract freigegeben und bietet es bei SourceForge zum Download an. Die Software ist bisher nur in der Lage einfache und mehrspaltige Texte zu erkennen, kann aber mit einfachen und gar aufwendigen Layouts noch nicht viel anfangen.

Das „noch“ ist fett geschrieben weil diese Funktion noch so sehr in den Kinderschuhen steckt dass Google es nicht für die Öffentlichkeit freigegeben hat – aber es ist in Entwicklung und soll teilweise schon funktionieren. Außerdem wäre noch zu erwähnen dass Google das Projekt Tesseract nur fortführt und nicht selbst entwickelt hat. Den Anstoß dazu hat Hewlett Packard in den Jahren 1985 – 1995 gegeben.

Das ganze besitzt auch noch keinerlei Benutzeroberfläche und steht nur als einfaches Modul für Programmierer zur Verfügung. Ich könnte mir aber vorstellen dass Google gerade schon dabei ist den Code in seine Programme zu integrieren und mit der nächsten Version auszuliefern. Google Desktop könnte dann auch Texte in Bildern durchsuchen und Picasa natürlich genau das gleiche.

Es wird auch wirklich Zeit dass sich im Bereich der Texterkennung mal etwas tut und es endlich eine so sehr funktionierende Methode gibt dass man sich komplett auf das verlassen kann was die Software da ausspuckt. Im Laufe der Jahre habe ich viele Programme ausprobiert, und jedes hat mir durch das korrigieren der zahlreichen Fehler mehr Arbeit bereitet als wenn ich es selbst abgetippt hätte…

» Projekt Tesseract
» Ankündigung im Google Code Blog


Teile diesen Artikel:

comment ommentare zur “Projekt Tesseract: Texterkennung von Google

  • Es gibt für den industriellen Bereich bereits schon ganz brauchbare Lösungen, die ganze Papierstapel innerhalb kürzester Zeit zuverlässig digitalisieren. Die Google Buchsuche spricht glaube ich für sich. Doch diesen Vorteil geben die Firmen natürlich immer erst verspätet weiter. Verbesserungspotetial gibt es momentan noch bei Verzerrungen und Verfremdungen des Bildmaterials und natürlich bei der Handschriftenerkennung.

  • Kollege, es wird mal wirklich Zeit, dass du dir mal den aktuellen Stand auf dem Markt ansiehst. FineReader ist ein solides Produkt. Du kannst du einfach eine Testversion ziehen und dich davon überzeugen.

    Gruß
    r0m

  • Bisher konnte mich einfach noch kein Programm überzeugen. Es ist möglich dass es mittlerweile sehr viel bessere gibt, aber so lange ich sie nicht kenne kann ich meine subjektive Meinung dazu ja rauslassen .p

Kommentare sind geschlossen.