Empfehlung für OCR-Programm mit PDF als Quelle?

cabriofahrer · 17 April 2022

Ich habe eine PDF-Datei mit viel Text und Tabellen und möchte gerne den Inhalt mittels OCR in ein Textdokument bekommen (z.B. .odt). Welche Methode könnt Ihr da empfehlen? Ein "pkg search ocr" ergibt Folgendes:

Code:

$ pkg search ocr
gocr-0.52                      OCR (Optical Character Recognition) program
gocritic-0.6.2_1               Opinionated Go source code linter for code audit
ocrad-0.28                     OCR program implemented as filter
p5-Catalyst-Plugin-AutoCRUD-2.200002 Instant AJAX web front-end for DBIx::Class
p5-FuzzyOcr-devel-3.6.0_6      Plugin for SpamAssassin which scans image attachments for spam
p5-Image-OCR-Tesseract-1.26    Read an image with Resseract OCR and get output
pam_ocra-1.5                   RFC6287 (OCRA) PAM module
picocrypt-1.23_1               Small, simple, yet very secure encryption tool
py38-docrepr-0.2.0             Generate rich representations for docstrings
py38-ocrmypdf-13.4.1           Adds an OCR text layer to scanned PDF files
py38-pyocr-0.8                 Python wrapper for OCR engines (Tesseract, Cuneiform, etc)
rocr-1.9.1                     HPC market enhanced HSA based runtime
ssocr-2.22.1                   CLI to recognize digits of a seven segment display

Andy_m4 · 17 April 2022

Ich hab jetzt keine exakte Antwort auf Dein Problem, aber im einfach mal im Thread den Anfang zu machen und einen Ansatz zu liefern:

Häufig nimmt man heute zur OCR-Erkennung Tesseract
(gibt noch ein Package dazu das tesseract-data heißt welches die Trainingsdaten für die verschiedenen Sprachen enthält).
Der übliche Weg für Dein Problem ist, das man das PDF in einer Bilddatei umwandelt und da dann tesseract "drüberjagt". DA kriegste dann hinten plaintext, PDF (also "richtiges" was sich dann auch mit LibreOffice importieren lässt) oder ne Art HTML (lässt sich auch importieren) raus, je nachdem was Du wählst.
Da gibts natürlich noch darauf basierende Zusatztools zu die Dir evtl. das Leben erleichtern.

cabriofahrer · 17 April 2022

Super, Danke!

pit234a · 17 April 2022

PDF ist nicht gleich PDF.
Wenn Text und Tabellen als Grafik eingebunden sind, geht mein Vorschlag deshalb schon mal nicht:
LibreOffice nehmen.
Das Draw kann mittlerweile PDFs sehr gut behandeln und wenn es diese entsprechend eingebunden hat, lassen sie sich auch als Draw-Dokument verändern und speichern oder exportieren zu anderen Formaten.
pdftotext kann sehr einfach und meist ziemlich unbefriedigend ein PDF zu einem Text-File machen.
mupdf bringt mutool und das habe ich erst kürzlich überhaupt wahrgenommen und kenne es entsprechend wenig, Es genügte für meine Aufgabe und überraschte mich mit seinen Möglichkeiten. Vielleicht ist da auch was für dich dabei.

stendate · 18 April 2022

Wenn es dein Ziel ist in den gescannten PDFs zu suchen, dann kann ich pdfsandwich empfehlen. Es wandelt Image-PDFs in durchsuchbare PDFs.

klimaschreck · 18 April 2022

In den poppler-utils-22.01.0_1 ist ein Tool namens pdftotext enthalten. Es wandelt den Text aus dem PDF in Text um. Wenn du tatsächlich nur Text als Grafik im PDF hast, hilft es dir nicht weiter.

Empfehlung für OCR-Programm mit PDF als Quelle?

cabriofahrer

Well-Known Member

Andy_m4

Well-Known Member

cabriofahrer

Well-Known Member

pit234a

Well-Known Member

stendate

New Member

klimaschreck

Well-Known Member

Wir schützen deine Privatsphäre