본문 바로가기

파이썬(Python)/그 밖에

python. tesseract library 설치하고 실행: 가장 기초적인 코드를 넣었는데도 오류가 생기면 글자 실수를 확인하시오.

환경 Windows11; Anaconda3 (python 3.9.12); VScode (latest ver)

 

설치와 실행

윈도우용 설치 파일 받았다. 23.05.12에 최신 버전 0.3.10.

기존 버전이 있는 사람은, 업데이트를 시키던지 지웠다가 새로 설치하던지(uninstall then install) 하는게 좋다. 나는 제거 후 재설치를 좋아하는 편. 아래 사이트에 가서 The latest installer can be downloaded here: 아래의 링크를 누른다.

(엄격히 말하면, 저 링크는 멘하임 대학교 도서관에서 쓰려고 테사렉트를 가져온건데, 실제 tesseract-ocr 의 배포판 버전 {링크}과 동기화되어 있고 다운로드 링크 찾기가 편해서 이거 쓰는게 낫더라.

 

아래 사이트: 

https://github.com/UB-Mannheim/tesseract/wiki

 

Home

Tesseract Open Source OCR Engine (main repository) - UB-Mannheim/tesseract

github.com

 

다운받은거 실행한다. 어지간하면 건드릴 거 없으니 쭉 Next만 누른다. 그리고 아래 단계가 뜨면 추가 언어팩을 고른다.

tesseract 설치할 때 중국어번체(한국에서 주로 쓰는 한자), 일본어, 한국어 정도는 체크하면 좋다. 설치 언어를 영어로 하면 영어는 기본값이니 추가할 필요 없다.

 

이거는 설치 장소 기본값이 C:\Program Files\Tesseract-OCR  이다. (그런데 버전이나 설치위치 따라 폴더 주소가 달라지니까 주의한다. 디렉토리 기본값이, 고대 버전들은 C:\Users\USERNAME\Appdata\... 이고 32비트용은 C:\Program Files(x86)\... 인듯?)

 

설치가 끝나고서는 아래의 기본 코드를 넣어서 실행하였다. 이미지 관련 라이브러리인 cv2(Open Source Computer Vision Library)나 PIL(pillow)도 같이 써야 한다. 없으면 설치하시오. 나는 Anaconda3깔 때 PIL이 같이 들어있었다.

from PIL import Image
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseracte.exe"

img = Image.open(r"C:\Users\FOO\Downloads\TEST.png")
text = pytesseract.image_to_string(img)
print(text)

#1 이미지 처리 라이브러리 불러오기
#2 pytesseract 불러오기
#3 pytesseract 설치위치 알려주는 작업.
#4 이미지 파일 불러와서 저장
#5 이미지 파일 OCR 처리하여 저장
#6 저장된 텍스트 파일 출력
 
그랬더니 TesseractNotFoundError: tesseract is not installed or it's not in your path 가 계속 나왔다.

 

오류 원인과 해결

주요 오류에 해당하는 줄 알고 여러 가지를 해봤으나 계속 실패했다. 알고봤더니, 3번째줄(line #3) 맨 끝에 \tesseracte.exe 로 넣어서, 오류가 해결되지 않았다. 단순 입력 실수인데 3줄씩 셀로 나누어서 실행했을 때 문제가 없어서 인식하지 못하고 지나갔던 것이다. ct 뒤에 e를 빼고  \tesseract.exe 로 바꾸니 멀쩡해졌다.

pytesseract 사용 성공