Toolbox: Texterkennung mit Tesseract OCR

Anleitung: Tesseract OCR auf Ubuntu 22.04 installieren Tesseract OCR ist eine Open-Source-Software zur optischen Zeichenerkennung (Optical Character Recognition, OCR), die auf Ubuntu 22.04 installiert werden kann. Mit Tesseract OCR können Sie Bilder und PDF-Dateien in Text umwandeln, auch für die deutsche Sprache.

  1. Tesseract OCR installieren Öffnen Sie die Befehlszeile und geben Sie folgenden Befehl ein: sudo apt-get install tesseract-ocr tesseract-ocr-dev libleptonica-dev libtesseract-dev

  2. German language-Pack herunterladen Um die deutsche Sprache zu unterstützen, müssen Sie das German language-Pack herunterladen. Geben Sie dazu den Befehl sudo apt-get install tesseract-ocr-script-deu ein.

  3. Tessdata Ordner erstellen Erstellen Sie einen Ordner namens “tessdata” in Ihrem Home-Verzeichnis. Geben Sie dazu den Befehl mkdir ~/tessdata ein.

  4. German language-Pack in den Tessdata Ordner kopieren Kopieren Sie das heruntergeladene German language-Pack in den Tessdata-Ordner. Geben Sie dazu den Befehl cp /usr/share/tesseract-ocr/tessdata/script/deu.traineddata ~/tessdata ein.

  5. Tesseract OCR ausführen Sie können jetzt Tesseract OCR auf ein Bild oder eine PDF-Datei anwenden. Geben Sie dazu den Befehl tesseract image.png image.txt -l deu ein, wobei “image.png” durch den Namen Ihres Bildes oder PDF-Datei ersetzt werden sollte.

Beachten Sie, dass Tesseract OCR möglicherweise nicht perfekt ist und Fehler bei der Erkennung von Texten machen kann, insbesondere bei schlechter Bildqualität oder ungewöhnlichen Schriftarten. Es gibt jedoch viele Tools und Methoden, um die Genauigkeit von Tesseract OCR zu verbessern.

Schritte um die Genauigkeit von Tesseract OCR zu erhöhen

Es gibt mehrere Möglichkeiten, um die Genauigkeit von Tesseract OCR zu verbessern:

Bildvorbereitung: Stellen Sie sicher, dass das Bild, das Sie verwenden möchten, ausreichend hell und kontrastreich ist. Eine Skalierung oder Beschnitt des Bildes kann auch helfen, um die OCR-Genauigkeit zu verbessern.

Schriftart- und Schriftgrößen-Trainingsdaten: Tesseract OCR kann trainiert werden, um bestimmte Schriftarten und Schriftgrößen besser zu erkennen. Durch Hinzufügen von Trainingsdaten für diese Schriftarten und Schriftgrößen kann die Genauigkeit verbessert werden.

Benutzerdefinierte Wörterbücher: Tesseract OCR kann auch mit einem benutzerdefinierten Wörterbuch trainiert werden, um bestimmte Wörter oder Abkürzungen besser zu erkennen.

Konfigurationsoptionen: Tesseract OCR hat verschiedene Konfigurationsoptionen, die verwendet werden können, um die Genauigkeit zu verbessern. Dazu gehören die Verwendung von spezifischen OCR-Engines, die Anpassung von Schwellenwerten für die Texterkennung und die Verwendung von spezifischen Wörterbüchern.

Verwendung von OCR-Optimierer: es gibt auch OCR-Optimierer Tools, die man verwenden kann um die Erkennungsgenauigkeit zu verbessern, wie z.B. Image cleaning tools die helfen können um Störfaktoren wie Rauschen, Schatten usw. zu eliminieren.

Post-Processing: Nachdem die OCR ausgeführt wurde, kann man mithilfe von Text-Processing-Tools, wie z.B. Regex, die Erkennungsgenauigkeit verbessern.

Es ist wichtig zu beachten, dass die beste Methode zur Verbesserung der Genauigkeit von Tesseract OCR von den spezifischen Anforderungen und Eigenschaften des Bildes oder der PDF-Datei abhängt. Es ist ratsam, mehrere Methoden auszuprobieren und die Ergebnisse zu vergleichen, um die beste Lösung zu finden.

https://www.heise.de/ct/artikel/Toolbox-Texterkennung-mit-Tesseract-OCR-1674881.html

https://wiki.ubuntuusers.de/tesseract-ocr/