Hallo,
da ich mein Büro auf weitgehend papierlos umstellen will, habe ich mich durch die Tiefen des Internets gewühlt. Dabei fand ich folgende Webseite. Linux: OCR-Texterkennung für PDF-Dateien und Bilder
Das klang richtig gut. Per Skript ganze Ordner von PDF`s indexieren zu lassen.
Die älteren Versionen von anderen Maintainern lassen sich zwar teilweise installieren, ein Probelauf scheiterte aber bei allen verfügbaren Varianten wegen fehlender Bibliotheken. Also alles wieder deinstalliert.
Auf Opensuse ist aber das Paket in der aktuellen Version für Leap nicht zu finden, aber für Tumbleweed. OCRmyPDF Opensuse aktuell Hier steht ganz unten als Kommentar, man könnte über Pipe (pipex) das auch installieren man müsste nur folgende Pakete installieren. pluggy img2pdf reportlab pdfminer.six coloredlogs tqdm. Dies habe ich auch alle installiert. Danach könnte man über Pipe installieren.
Ich habe dann einen Artikel von Heise aus dem Jahr 2019 gefunden, wie man es installieren kann: OCR über Pipe installieren
im Github stand dann auch wie man es ohne Pakete installieren kann. Anleitung Github
Alle Pakete sind richtig installiert und es gibt nicht fehlende Abhängigkeiten
Jetzt kommt beim Aufruf von
Woran es hängt, kann ich nicht finden. Wer kann mir einen Tip geben?
da ich mein Büro auf weitgehend papierlos umstellen will, habe ich mich durch die Tiefen des Internets gewühlt. Dabei fand ich folgende Webseite. Linux: OCR-Texterkennung für PDF-Dateien und Bilder
Das klang richtig gut. Per Skript ganze Ordner von PDF`s indexieren zu lassen.
Die älteren Versionen von anderen Maintainern lassen sich zwar teilweise installieren, ein Probelauf scheiterte aber bei allen verfügbaren Varianten wegen fehlender Bibliotheken. Also alles wieder deinstalliert.
Auf Opensuse ist aber das Paket in der aktuellen Version für Leap nicht zu finden, aber für Tumbleweed. OCRmyPDF Opensuse aktuell Hier steht ganz unten als Kommentar, man könnte über Pipe (pipex) das auch installieren man müsste nur folgende Pakete installieren. pluggy img2pdf reportlab pdfminer.six coloredlogs tqdm. Dies habe ich auch alle installiert. Danach könnte man über Pipe installieren.
Code:
zypper se pluggy img2pdf reportlab pdfminer.six coloredlogs tqdm
Loading repository data...
Reading installed packages...
S | Name | Summary | Type
---+-----------------------------+----------------------------------------------------------------------+-----------
| python-coloredlogs | Colored terminal output for Python's logging module | srcpackage
| python-pluggy | A minimalist production ready plugin system | srcpackage
| python-reportlab | The Reportlab Toolkit | srcpackage
| python-tqdm | An extensible progress meter | srcpackage
| python-tqdm-bash-completion | Bash completion for python-tqdm | package
i+ | python3-coloredlogs | Colored terminal output for Python's logging module | package
i | python3-img2pdf | Python module for converting images to PDF via direct JPEG inclusion | package
i | python3-pdfminer.six | PDF parser and analyzer | package
i | python3-pluggy | Plugin registration and hook calling mechanisms for Python | package
i | python3-reportlab | The Reportlab Toolkit | package
i | python3-tqdm | An extensible progress meter | package
| python311-coloredlogs | Colored terminal output for Python's logging module | package
| python311-pluggy | A minimalist production ready plugin system | package
| python311-tqdm | An extensible progress meter | package
Ich habe dann einen Artikel von Heise aus dem Jahr 2019 gefunden, wie man es installieren kann: OCR über Pipe installieren
im Github stand dann auch wie man es ohne Pakete installieren kann. Anleitung Github
Code:
pip install git+https://github.com/ocrmypdf/OCRmyPDF.git
Collecting git+https://github.com/ocrmypdf/OCRmyPDF.git
Cloning https://github.com/ocrmypdf/OCRmyPDF.git to /tmp/pip-req-build-qwewf0xr
Running command git clone --filter=blob:none --quiet https://github.com/ocrmypdf/OCRmyPDF.git /tmp/pip-req-build-qwewf0xr
Resolved https://github.com/ocrmypdf/OCRmyPDF.git to commit 08e89e2dbe7c67db1eb629e66ab035717b548913
Installing build dependencies ... done
Getting requirements to build wheel ... done
Preparing metadata (pyproject.toml) ... done
Requirement already satisfied: deprecation>=2.1.0 in /usr/lib/python3.11/site-packages (from ocrmypdf==16.2.1.dev1+g08e89e2) (2.1.0)
Requirement already satisfied: img2pdf>=0.5 in /usr/lib/python3.11/site-packages (from ocrmypdf==16.2.1.dev1+g08e89e2) (0.5.1)
Requirement already satisfied: packaging>=20 in /usr/lib/python3.11/site-packages (from ocrmypdf==16.2.1.dev1+g08e89e2) (24.0)
Requirement already satisfied: pdfminer.six>=20220319 in /usr/lib/python3.11/site-packages (from ocrmypdf==16.2.1.dev1+g08e89e2) (20231228)
Requirement already satisfied: pi-heif in /usr/lib64/python3.11/site-packages (from ocrmypdf==16.2.1.dev1+g08e89e2) (0.16.0)
Requirement already satisfied: pikepdf>=8.10.1 in /usr/lib64/python3.11/site-packages (from ocrmypdf==16.2.1.dev1+g08e89e2) (8.15.1)
Requirement already satisfied: Pillow>=10.0.1 in /usr/lib64/python3.11/site-packages (from ocrmypdf==16.2.1.dev1+g08e89e2) (10.3.0)
Requirement already satisfied: pluggy>=1 in /usr/lib/python3.11/site-packages (from ocrmypdf==16.2.1.dev1+g08e89e2) (1.5.0)
Requirement already satisfied: rich>=13 in /usr/lib/python3.11/site-packages (from ocrmypdf==16.2.1.dev1+g08e89e2) (13.7.1)
Requirement already satisfied: charset-normalizer>=2.0.0 in /usr/lib64/python3.11/site-packages (from pdfminer.six>=20220319->ocrmypdf==16.2.1.dev1+g08e89e2) (3.3.2)
Requirement already satisfied: cryptography>=36.0.0 in /usr/lib64/python3.11/site-packages (from pdfminer.six>=20220319->ocrmypdf==16.2.1.dev1+g08e89e2) (42.0.5)
Requirement already satisfied: Deprecated in /usr/lib/python3.11/site-packages (from pikepdf>=8.10.1->ocrmypdf==16.2.1.dev1+g08e89e2) (1.2.14)
Requirement already satisfied: lxml>=4.8 in /usr/lib64/python3.11/site-packages (from pikepdf>=8.10.1->ocrmypdf==16.2.1.dev1+g08e89e2) (5.2.1)
Requirement already satisfied: markdown-it-py>=2.2.0 in /usr/lib/python3.11/site-packages (from rich>=13->ocrmypdf==16.2.1.dev1+g08e89e2) (3.0.0)
Requirement already satisfied: pygments<3.0.0,>=2.13.0 in /usr/lib/python3.11/site-packages (from rich>=13->ocrmypdf==16.2.1.dev1+g08e89e2) (2.17.2)
Requirement already satisfied: cffi>=1.12 in /usr/lib64/python3.11/site-packages (from cryptography>=36.0.0->pdfminer.six>=20220319->ocrmypdf==16.2.1.dev1+g08e89e2) (1.16.0)
Requirement already satisfied: mdurl~=0.1 in /usr/lib/python3.11/site-packages (from markdown-it-py>=2.2.0->rich>=13->ocrmypdf==16.2.1.dev1+g08e89e2) (0.1.2)
Requirement already satisfied: wrapt<2,>=1.10 in /usr/lib64/python3.11/site-packages (from Deprecated->pikepdf>=8.10.1->ocrmypdf==16.2.1.dev1+g08e89e2) (1.16.0)
Requirement already satisfied: pycparser in /usr/lib/python3.11/site-packages (from cffi>=1.12->cryptography>=36.0.0->pdfminer.six>=20220319->ocrmypdf==16.2.1.dev1+g08e89e2) (2.22)
Alle Pakete sind richtig installiert und es gibt nicht fehlende Abhängigkeiten
Code:
zypper ve
Loading repository data...
Reading installed packages...
Dependencies of all installed packages are satisfied.
Jetzt kommt beim Aufruf von
Code:
ocrmypdf --help
Ungültiger Maschinenbefehl (Speicherabzug geschrieben)
Woran es hängt, kann ich nicht finden. Wer kann mir einen Tip geben?