OCR bei Attachments

Mrothyr

Member
Hi,

vielleicht hat ja jemand schon was gebaut. Allerdings habe ich durch suchen noch nichts gefunden.

Mein Multifunktionsgerät scannt an den Mailserver per SMTP, leider ohne OCR. Ich möchte jetzt am Mailserver (Postfix) einen Queue Filter, Milter o.ä. haben, der (auf dem Interface/Port bzw. von dem Absender) eingehende Mails mit PDF-Anhang über eine OCR (Tesseract, vielleicht mit OCRmyPDF) schickt und das Ergebnis (also das entstandene PDF mit Textebene) dann wieder injiziert, so daß es an die vorgesehenen Empfänger weitergereicht wird.

Hat jemand was Einschlägiges gebaut oder eine Idee? Mir fehlt etwas der richtige Ansatz.

Danke.
 

Athaba

Libellenliebhaber
Ich habe nur Ansätze parat, je nach Anwendungsfall.

Also Spamassassin macht das so, dass sie mit imagemagick in ein von GOCR verwendbares Format konvertieren und dann damit arbeiten. Da kannst du dir womöglich was abschauen, wenn du selbst Hand anlegen willst.

Vielleicht kannst du Sachen aber sogar umgehen, falls die PDFs ziemlich "standardmäßig" daherkommen. Ich denke da entweder an Metadaten (Name der Datei oder tatsächliche PDF-Metadaten, etc.). Je nach tatsächlich verwendetem PDF-Format (und wie der Text eingebettet ist) kannst du den Text vielleicht sogar direkt ohne OCR rausholen, wenn es sich nicht um Scans oder so handelt. Ghostscript kann das dann zum Beispiel.
 
Oben