Optical Character Recognition
Texterkennung mit kostenfreien LINUX-Tools!!!
Ich brauche nur JPG oder eingescannte PDF's ohne Text-Layer in einen Ordner schieben und erhalte in einem anderen PDF/A1 -Dokumente, durchsuchbar...!
Ich habe hier Tesseract, ocrmypdf installiert. Vielen Dank für die Infos und das Skript von Decatec.de .
Die Installationsroutine habe ich ergänzt um Samba....
Ich schiebe Dateien (und ganze Unterordner) in den "INPUT"-Ordner.
Alle 15 Minuten läuft ein Cron-Job, der das angepaßte Skript startet, dabei folgendes ausführt:
Image-Dateien werden konvertiert zu PDF
PDF-Dokumente werden per OCR mit einem Text-Layer versehen -> PDF/A1
und in den "OUTPUT"-Ordner erstellt
PDF's, die bereits mit Text-Layer versehen sind, werden nur in den "OUTPUT"-Ordner kopiert
Nach vollständiger Konvertierung werden die Daten im "INPUT"-Ordner gelöscht.
(bei der Arbeit...)
Fertig:
Alle Parameter sind entweder im Skript anpassbar (z.B. Sprachen), Fehlerverhalten, oder im Job selbst...
Einfacher geht es nicht...
Dies wird jetzt noch im laufenden Betrieb mit dutzenden von Multifunktionsdruckern getestet.
Des Weiteren werden wir die Qualität der Erkennung checken...
Vielleicht ist dann die kostenpflichtige Version Geschichte.
Wir halten Sie an dieser Stelle auf dem Laufenden.
NACHTRAG vom 25.05.2020:
Nachdem wir eine saubere Integration der Maschine im Active Directory vorgenommen haben und diverse Dateien (inkl. Ordner) mit OCR "betankt" haben, ist dies aktuell nun die erste Wahl, wenn wir mal wieder einigen Fachabteilungen PDF - Dokumente zur Archivierung bereitstellen müssen. Die Qualität ist richtig gut, Unterschiede zu einer kostenpflichtigen Lösung haben wir nicht festgestellt.
Bei der Skript-Einstellung gibt es eine Kleinigkeit zu beachten:
Wenn in einer nicht durchsuchbaren PDF-Datei per PDF-Editor eine Bemerkung mit einem Textfeld gesetzt wurde, erkennt das System dies und verschiebt die Datei unbearbeitet in den OUTPUT-Ordner. Bis auf den Bemerkungstext bleibt die Datei also dann unbearbeitet nicht durchsuchbar.
Entweder man entfernt vorher das Textfeld, oder im Skript muss man die Bearbeitungsroutine umstellen.....
Die nächste Stufe der Eigenentwicklung:
Erstellen von PDF-Dokumenten aus eMail-Dateien (MSG)....