cabriofahrer
Well-Known Member
Ich habe eine PDF-Datei mit viel Text und Tabellen und möchte gerne den Inhalt mittels OCR in ein Textdokument bekommen (z.B. .odt). Welche Methode könnt Ihr da empfehlen? Ein "pkg search ocr" ergibt Folgendes:
Code:
$ pkg search ocr
gocr-0.52 OCR (Optical Character Recognition) program
gocritic-0.6.2_1 Opinionated Go source code linter for code audit
ocrad-0.28 OCR program implemented as filter
p5-Catalyst-Plugin-AutoCRUD-2.200002 Instant AJAX web front-end for DBIx::Class
p5-FuzzyOcr-devel-3.6.0_6 Plugin for SpamAssassin which scans image attachments for spam
p5-Image-OCR-Tesseract-1.26 Read an image with Resseract OCR and get output
pam_ocra-1.5 RFC6287 (OCRA) PAM module
picocrypt-1.23_1 Small, simple, yet very secure encryption tool
py38-docrepr-0.2.0 Generate rich representations for docstrings
py38-ocrmypdf-13.4.1 Adds an OCR text layer to scanned PDF files
py38-pyocr-0.8 Python wrapper for OCR engines (Tesseract, Cuneiform, etc)
rocr-1.9.1 HPC market enhanced HSA based runtime
ssocr-2.22.1 CLI to recognize digits of a seven segment display