Optische Zeichenerkennung

Aus Metapedia
Wechseln zu: Navigation, Suche
Tesseract mit gimagereader.jpg

Die Optische Zeichenerkennung (OZE engl.: OCR) ist eine Möglichkeit, Texte in Bildern zu erkennen, so daß diese in einem Schreibprogramm weiterbearbeitet werden können. Ein kostenloses Programm ist tesseract-ocr, zu dem für das Betriebssystem „Windows“ die grafische Benutzeroberfläche gImageReader verwendet werden kann. Neben den üblichen Bildformaten lassen sich damit auch PDF-Dateien erkennen. Die Benutzeroberfläche läßt sich auf die deutsche Sprache umstellen (Der Schalter „Erwerben“ bezeichnet das einlesen). Erkennungssprachen sind bereits vorinstalliert oder können zusätzlich heruntergeladen werden. Das Programm ist sogar in der Lage, Frakturschrift zu erkennen, wobei naturgemäß das lange s jedoch zumeist als f interpretiert wird. Dazu muß die Datei deu-frak.traineddata.gz entpackt werden nach *\Tesseract-OCR\tessdata\ Die Erkennungsrate bei Frakturschrift ist stark abhängig vom eingelesenen Text, muß aber in jedem Fall nachbearbeitet werden. Ein weiteres Programm ist z.B. Abby Finereader, das jedoch kostenpflichtig ist.

Verweise