Ich versuche pytesseract in Python zu verwenden, aber am Ende habe ich immer den Fehler:
"TesseractNotFoundError: Tesseract ist nicht installiert oder befindet sich nicht in Ihrem Pfad"
pytesseract und tesseract sind im System installiert. Ich bin neu im Python, also werde ich es wirklich schätzen, wenn mir jemand dabei helfen kann
Ich habe versucht, die Pfadvariable wie bereits erwähnt hinzuzufügen, erhielt aber immer noch den gleichen Fehler. Was funktionierte, war das Hinzufügen zu meinem Skript:
pytesseract.pytesseract.tesseract_cmd = r "C:\Programme (x86)\Tesseract-OCR\tesseract.exe"
Ich habe diese Fehlermeldung erhalten, weil ich pytesseract
mit pip
installiert habe, aber vergessen, sie mit apt
zu installieren. In dieser Situation installieren Sie es mit diesen Befehlen:
Sudo apt update
Sudo apt install tesseract-ocr
Sudo apt install libtesseract-dev
Vermutlich fehlt Ihnen tesseract-ocr
auf Ihrem Rechner. Überprüfen Sie die Installationsanweisungen hier: https://github.com/tesseract-ocr/tesseract/wiki
Auf einem Mac können Sie einfach mit Homebrew installieren:
brew install tesseract
Danach sollte es gut laufen
Ich arbeite auf einem Mac OS und installiere Tesseract mit Brew. Hier ist meine Meinung dazu. Da mit pytesseract nur über Python auf Tesseract zugegriffen werden kann, müssen Sie angeben, wo sich Tesseract bereits auf Ihrem Computer befindet.
Für Mac OS
Versuchen Sie herauszufinden, wo sich die Datei tesseract.exe befindet, wenn Sie sie mit .__ installiert haben. brew, auf dem Terminal verwenden:
>brew list tesseract
Hier sollte aufgelistet sein, wo sich Ihre tesseract.exe befindet, irgendwo mehr oder weniger
> /usr/local/Cellar/tesseract/3.05.02/bin/tesseract
Dann folge ihren Anweisungen :
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
pytesseract.pytesseract.tesseract_cmd = r '/ usr/local/Keller/tesseract/3.05.02/bin/tesseract'
sollte den Trick tun!
Eine einfache Sache, die in Jupyter Notebook tatsächlich für mich funktionierte, war die Verwendung von double backslash anstelle eines einzelnen Backslash im Pfad pytesseract.pytesseract.tesseract_cmd:
pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'
Ich hatte das gleiche Problem. Ich hoffe, Sie haben von https://github.com/UB-Mannheim/tesseract/wiki installiert und auch pytesseract pip installiert.
Wenn alles in Ordnung ist, sollten Sie den Pfad C:\Programme (x86)\Tesseract-OCR sehen, in dem tesseract.exe verfügbar ist.
Das Hinzufügen der Pfadvariable hat mir nicht geholfen, ich habe tatsächlich eine neue Variable mit dem Namen tesseract in Umgebungsvariablen mit dem Wert C:\Program Files (x86)\Tesseract-OCR\tesseract.exe hinzugefügt.
Öffnen Sie nun das Befehlsfenster und geben Sie einfach tesseract ein. Es sollte funktionieren und Ihnen Nutzungsinformationen geben.
Importieren Sie einfach pytesseract und diese Zeile sollte funktionieren, damit Sie die Textzeichenfolge lesen können
text = pytesseract.image_to_string (im, config = config)
genießen!
Für Mac:
Dies sollte gut funktionieren.
Sie können das Setup von tesseract-ocr über den folgenden Link herunterladen:
Fügen Sie dann eine neue Variable mit dem Namen tesseract in Umgebungsvariablen mit dem Wert C:\Program Files (x86)\Tesseract-OCR\tesseract.exe hinzu
Die folgenden drei Befehle werden das Nötige tun:
Sudo apt update
# This will update your packages
Sudo apt install tesseract-ocr
# This will install OCR
Sudo apt install libtesseract-dev
# This will add it as development dependency
Installieren Sie tesseract von https://github.com/UB-Mannheim/tesseract/wiki und fügen Sie den Pfad von tesseract.exe zur Umgebungsvariable Path hinzu.
ACHTUNG: NUR FÜR WINDOWS
Ich bin heute auf dieses Problem gestoßen, und alle hier genannten Antworten haben mir geholfen, aber ich persönlich musste viel graben, um es zu lösen. Lassen Sie mich also allen anderen helfen, indem Sie die Lösung in einer sehr einfachen Form darstellen:
Laden Sie die ausführbare 64-Bit-Datei (32-Bit, wenn Sie einen 32-Bit-Computer haben) von hier herunter.
(Name der Datei wäre tesseract-ocr-w64-setup-v5.0.0.20190526 (alpha))
Es installieren. Lassen Sie es sich im Standard-C-Verzeichnis installieren.
Gehen Sie nun zu Ihrer Umgebungsvariablen (erreichen Sie diese, indem Sie sie einfach im Startmenü suchen oder Gehe zu Control Panel > System > Advanced System Settings > Environment Variables
)
a) Wählen Sie PATH und bearbeiten Sie es. Klicken Sie auf NEU und fügen Sie den Pfad hinzu, in dem es installiert ist (normalerweise C:\Program Files\Tesseract-OCR\
)
Jetzt wird der Fehler nicht mehr angezeigt!
Ich stehe vor demselben Problem. Ich benutze einfach diesen Befehl, der mir helfen wird.
Sudo apt install tesseract-ocr
In der Windows 10-Betriebssystemumgebung funktioniert die folgende Methode für mich:
https://github.com/tesseract-ocr/tesseract/wiki Laden Sie tesseract herunter und installieren Sie es. Die Windows-Version ist hier verfügbar: https://github.com/UB-Mannheim/tesseract/wiki
Suchen Sie die Skriptdatei pytesseract.py im Verzeichnis C:\Users\User\Anaconda3\Lib\site-packages\pytesseract und öffnen Sie sie .. __ Ändern Sie den folgenden Code von tesseract_cmd = 'tesseract'
in: tesseract_cmd = 'D:/Program Files (x86)/Tesseract-OCR/tesseract.exe'
Möglicherweise müssen Sie auch die Umgebungsvariable hinzufügen D:/Program Files (x86)/Tesseract-OCR/
Voila!
Kleiner Fehler - Ich wusste, ich musste mein Cmd öffnen/schließen, um den aktualisierten Pfad zum Nachdenken zu erhalten. Mit Jupyter Notebook musste ich den Client herunterfahren und auch neu initialisieren.
Dies tritt unter Windows (zumindest in Tesseract Version 3.05) auf, wenn sich das aktuelle Verzeichnis auf einem anderen Laufwerk befindet als das, auf dem Tesseract installiert ist.
Tesseract erwartet, dass sich Datendateien in\Programme ... befinden (und nicht etwa in C:\Programme). Wenn Sie sich also nicht auf demselben Laufwerksbuchstaben wie tesseract befinden, schlägt dies fehl. Es wäre großartig, wenn wir das Problem umgehen könnten, indem wir vor dem Ausführen von tesseract vorübergehend die Laufwerke (nur unter Windows) auf das tesseract-Installationslaufwerk ändern und danach zurückkehren. Beispiel in Ihrem Fall: Sie können yourmodule_python.py nach "C/Programme (x86)/Tesseract-OCR /" kopieren und RUN!
Höchstwahrscheinlich haben Sie verschiedene Versionen von Python installiert, stellen Sie sicher, dass sich das installierte Tesseract auf derselben Python Version befindet.
which pip3
zeigt dir den Pfad zur pip3 Installation und which python3
zeigt den entsprechenden Pfad zur Python Installation.
Stellen Sie sicher, dass diese beiden identisch sind.
Importierst du
from tesseract import image_to_string
Nicht aus pytesseract importieren
Ich verwende derzeit Windows und musste einen PDF -Parser entwickeln, aber das Hinzufügen einer neuen Umgebungsvariablen über sysdm.cpl
alleine hat nicht funktioniert. Für andere Windows-Benutzer empfehle ich dringend, C:\Program Files (x86)\Tesseract-OCR
zu Ihrem profile.ps1
hinzuzufügen (falls Powershell verwendet wird).
Ich hatte auch den gleichen Fehler, als ich versuchte, einen Text-Extraktor mit pytesseract zu erstellen, aber die Lösung war in den Installationsanweisungen für pytesseract in pypi zu finden site: pytesseract Es gibt viele Alternativen, um den Fehler zu vermeiden, aber das Hinzufügen eines weiteren Parameters in der Methode pytesseract.image_to_string wurde behoben es für mich wie
tessdata_dir_config = "/usr/share/tesseract-ocr/4.00/tessdata"
output = pytesseract.image_to_string(image, lang='eng', config=tessdata_dir_config)
Ich war auch mit dem gleichen Problem konfrontiert, fügen Sie einfach C:\Program Files (x86)\Tesseract-OCR
zu Ihrer Pfadvariablen hinzu. Wenn es immer noch nicht funktioniert, fügen Sie C:\Program Files (x86)\Tesseract-OCR\tessdata
zu Ihrer Pfadvariablen in einer neuen Zeile hinzu. Vergessen Sie nicht, Ihren Computer neu zu starten, nachdem Sie die Pfadvariable hinzugefügt haben.