• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

[gelöst] OCR - welches Programm ist empfehlenswert?

Hi,
ich habe mit gocr versucht, einen Text zu scannen und in mit LibreOffice verarbeitbaren Text umzuwandeln.
Leider hat das trotz mehrerer Versuche nicht funktioniert. Zum Scan wurde von gocr xsane aufgerufen. Dann war aber mit der erwarteten Texterkennung Schluß.
Gibt es irgendwo eine nachvollziehbare Anleitung?
Gibt es ein evtl. besseres Programm?
Wer kann helfen?

pelikan
 

/dev/null

Moderator
Teammitglied
Hallo Pelikan,

du fragst uns, welches OCR-Programm unter Linux empfehlenswert ist.
Du bekommst von mir eine zwar ehrliche, aber unbefriedigende Antwort:

Wenn du noch nie im Leben einen Ausdruck per OCR in eine bearbeitungsfähige Datei umgewandelt hast, dass wirst du bei deinen Tests unter Linux irgendwann einmal erfreut feststellen, dass es funktioniert. Irgendwann und mit einer Qualität und Trefferquote, welche nicht unbedingt begeistert.

Wenn du aber bereits eigene Erfahrungen mit OCR (ich nenne nur "Finereader"!) auf der WinDOSe gesammelt hast - dann wirst du nach deinen Versuchen unter Linux wieder zum Windows-Nutzer. :-(

Ich kann dir wirklich keines der auch unter Linux vorhandenen OCR-Programme mit gutem Gewissen empfehlen. (Ich würde mich freuen, wenn mich andere Nutzer vom Gegenteil überzeugen könten!)


MfG Peter
 
Hi /dev/null/

Du bekommst von mir eine zwar ehrliche, aber unbefriedigende Antwort:

Genau das hilft wirklich weiter.
Ich habe GOCR inzwischen wieder deinstalliert, weil ziemlicher Unsinn herauskam.
Finereader kenne ich noch aus alten WIN-Tagen.
Da es sich hier nur um ein einfaches einseitiges Formular handelt, habe ich das gute alte GIMP zum Nothelfer gemacht.
Zwar umständlich, aber hier ausreichend.

Danke.
pelikan
 
Hi

Warum besnutzt ihr nicht Xsane und wandelt es in pdf und von da in eine Textdatei um?
Ist zwar ein Umweg funktioniert aber hier meist.
Oder habe ich das falsch verstanden? :???:

cu
 

/dev/null

Moderator
Teammitglied
Hi,

bist du wirklich ganz sicher (*), dass das beim Scannen mit xsane eingescannte Textdokument (Ergebnis = ein Bild!) nach dem Abspeichern als pdf auf einmal editierbare Zeichen enthält? Wer oder was sollte denn dabei die Zeichenerkennung durchführen? Der Scanner selber oder gar das Abspeichern als pdf?

Wenn du aus Open-/LibreOffice ein Dokument als pdf ausdruckst, dann hast du in dem entstandenen pfd den Text als markierbaren und herauskopierbaren Inhalt. Keine Frage. Aber beim Scanner ist es nur ein Bild.

Genau das, aus einem "Pixelhaufen" mit sehr großer Wahrscheinlichkeit den für den Menschen problemlos erkennbaren Buchstaben zu erkennen, ist die Kunst bei OCR. Und da fehlt bei allen Linuxprogrammen noch eine ganze Menge. Und selbst wenn ich "nur" 5% der erkannten Buchstaben nachträglich korrigieren muss, ist das schon nicht mehr zumutbar. Da geht Eintippen schneller ... .

(*) Ich habe OCR lange nicht mehr unter Linux getestet. Wir haben einen OCR-Scanner (für die WinDOSe) auf Arbeit ... . Deshalb frage ich, ob du ganz sicher bist. Ich kann es hier nämlich nicht überprüfen.


MfG Peter
 
/dev/null schrieb:
Deshalb frage ich, ob du ganz sicher bist. Ich kann es hier nämlich nicht überprüfen.

Hier im Betrieb kann ich das im Moment auch nicht.
Heute Abend zuhause weiss ich mehr.

Ich habe lange nicht mehr mit xsane,PDFEdit und so gearbeitet aber ich bin mir sicher das dies so funktioniret hat, auch wenn ich heute nicht mehr so genau weiss wie.
Mehr heute Abend.
 
whois schrieb:
aber ich bin mir sicher
Es irrt der Mensch, solang er strebt. Du strebst noch.

Ein Scanner erzeugt ein Bild. Ob Du das Ergebnis jetzt als Bild oder als PDF-Datei oder sonstwie speicherst, ändert nichts daran, daß es ein Bild ist. Dieses Bild mußt Du einer OCR-Software vorwerfen, um daraus einen Text zu erzeugen.

Eine noch nicht genannte Möglichkeit ist in http://hartmut.homelinux.org/Linux/Software/OCR.html enthalten.
 
Hi,

Versuche mit xsane, gimp, libreoffice, ocular usw. bringen kein Ergebnis. Bild bleibt Bild und wird nicht Text.
OCR unumgänglich.
Schade, aber auch nicht anders zu erwarten.

pelikan
 

/dev/null

Moderator
Teammitglied
tesseract ist IMHO das ggw. leistungsfähigste Programm. Ich habe das auch irgendwann einmal (ein Bericht stand in der Linux-User) angetestet. Ja, es funktioniert. Aber die Nachbearbeitung ist schon sehr aufwändig. Kein Vergleich zu den "Konkurrenzprodukten für das alternative Betriebssystem".
 
Tesseract in Verbindung mit gimagereader ist nicht schlecht, wenn man einigermaßen hochauflösende Scans hat (ich verwende 600 dpi grey-scale). Mitg gimagereader kann man dann die zu erkennenden Bereiche festlegen, was bei Bücherscans (Mitte!) sehr sinnig ist. Das funktioniert recht gut. Nachbearbeitung ist leider trotzdem erforderlich. Trotzdem würde ich hierfür kein "alternatives" BS nutzen. Es reicht mir schon, wenn ich das ab und zu auf dem (Firmen-)Laptop starten muß. :zensur:

CU Freddie
 
A

Anonymous

Gast
Ich habe mit tesseract durchgehend gute Ergebnisse erzielt, insofern es sich um normalen eingescannten Text einer DIN A4 Seite handelt. Die Erkennungsquote liegt bei mir nahe 100% und ich brauchte nie etwas aufwendig nachzuarbeiten.
 
A

Anonymous

Gast
Hallo Feuervogel, Du hast natürlich vollkommen Recht, ich habe nichts Anspruchsvolles einzuscannen und da leistet mir tesseract wertvolle Dienste. Für komplizierte Vorlagen und Scans ist es nicht zu gebrauchen und deshalb wäre jeder Vergleich mit führenden Windows OCR Programmen fehl am Platze.
 
Oben