Durchsuchbare PDF vom Scanner in Linux

Wie erstellt man ein durchsuchbares PDF von einem Papierdokument unter Linux. Dieser Frage bin ich mal nachgegangen. Unter Windows ist die Sache recht einfach, wenn man eine Lizenz von Acrobat hat. Aber wie ist es unter Linux? Ein einfaches PDF-Dokument vom Scanner zu bekommen ist kein Problem, mit beispielsweise

scanimage --resolution 300 --mode Gray> bild.pnm

wird der Scanner angewiesen, ein Graustufenbild mit 300 dpi zu produzieren. Anschließend könnte man es mit convert sofort in eine pdf-Datei umwandeln. Leider kann der Inhalt dieser Datei aber dann nicht durchsucht werden, weder kann man also im Dokument suchen, noch alle Dateien auf der Festplatte nach dem Inhalt indexieren. Für den Text benötigt man ein OCR-Tool. Ich habe mich zum Testen für cuneiform entschieden, einfach weil es vor 3 Tagen zum 1.0.0-Release wurde, es gibt aber auch ein paar andere. Man konvertiert pnm-Bild ins bmp-Format und verfüttert es an cuneiform um eine hOCR-Datei zu bekommen, etwa:

convert bild.pnm bild.bmp; cuneiform -l ger -f hocr -o bild.html bild.bmp

mit “-l ger” signalisiert man, dass die Sprache Deutsch ist. Die hOCR-Datei, was im Grunde eine html-Datei ist, kann man dann an das Tool hocr2pdf von ExactCode schicken. Für Ubuntu existiert ein Paket exactImage, beim Fedora musste ich es den SVN-Sourcen kompilieren. Auf der o.g. Seite findet man auch den Beispielaufruf, in diesem Fall wäre es:

hocr2pdf -i bild.bmp -o bild.pdf < bild.html

Fertig! bild.pdf ist nun eine Datei, in der das Bild im Vordergrund ist (sieht also exakt so aus, wie das Original) und der Text ist im Hintergrund, so dass man Suchen und Kopieren kann. Man kann nun ein Script schreiben, der die besagten Aktionen nacheinander ausführt.

Die Frontend-Liebhaber können auch ein Blick auf gscan2pdf werfen, das kann das wohl auch, ich fand aber gerade die Kommandozeilen-Variante ganz interessant und habe es daher nicht ausprobiert.

Tags » , , , «

Autor:
Datum: Sonntag, 4. Juli 2010 19:30
Trackback: Trackback-URL Themengebiet: Technik

Feed zum Beitrag: RSS 2.0 Diesen Artikel kommentieren

Kommentar abgeben