Tesseract ocr

Hallo lockdoc,

ich hatte mich auch vor einiger Zeit ein wenig umgeschaut nach vernünftiger OCR-Software für *nix. Bin dann auf dieses Doc gekommen, in dem die Macher der archivista box Ocropus/Tesseract gegen Cuneiform getestet haben. Bei den Ergebnissen nicht verwunderlich, dass sie sich dann für letzteres entschieden haben. Und dieses Tool ist seit einiger Zeit als Opensource (BSD-Licence) verfügbar.

Das nette ist, dass Archivista ein Tool gesponsort hat, das den Original-Scan mit dem ausgelesenen Text in ein durchsuchbares PDF packt. Dazu muss man einerseits graphics/cuneiform andererseits graphics/exact-image installiert haben.

Dann geht das in zwei Schritten folgendermaßen (für ein Doc in Deutsch):

Code:
$cuneiform -l ger -f hocr <img file>
$hocr2pdf -i <img file> -o <output file> < cuneiform-out.html

Wenn man einfach nur ein Text-Dokument erstellen will, kann man auch das -f hocr gegen -f text austauschen.

Lange Rede kurzer Sinn: Ich kann Dir nichts zu Tesseract sagen. Aber mit Cuneiform habe ich erste und sehr positive Erfahrungen gemacht. Daher habe ich mich auch gar nicht erst an den Alternativen probiert. Vielleicht passt das ja auch für Dich.

Gruß
SolarCatcher
 
Tesseract kann was ganz Besonders, nämlich Frakturschrift einscannen. Ist momentan der letzte Renner, da z.B. Abi-Finereader enorme Summen dafür verlangt und viel Bibliotheken an ihre alten Bestände gehen, um diese zu digitalisieren. Würde mich auch für ein gutes Handbuch für Tesseract interessieren.
 
Hab gerade mal die Kombination cuneiform und hocr2pdf ausprobiert. Das sieht schon garnicht mal so schlecht aus. Welche Einstellungen sind beim Scannen die ertragreichsten nach eurer Meinung.
Bislang hab ich nur True Color bei 150 und 300 dpi getestet. Wobei letztere bessere OCR Ergebnisse geliefert haben.

Update: Graustufen 300 dpi sind bislang am besten erkannt worden.
 
Last edited:
Back
Top