환경 Windows11; Anaconda3 (python 3.9.12); VScode (latest ver)
설치와 실행
윈도우용 설치 파일 받았다. 23.05.12에 최신 버전 0.3.10.
기존 버전이 있는 사람은, 업데이트를 시키던지 지웠다가 새로 설치하던지(uninstall then install) 하는게 좋다. 나는 제거 후 재설치를 좋아하는 편. 아래 사이트에 가서 The latest installer can be downloaded here: 아래의 링크를 누른다.
(엄격히 말하면, 저 링크는 멘하임 대학교 도서관에서 쓰려고 테사렉트를 가져온건데, 실제 tesseract-ocr 의 배포판 버전 {링크}과 동기화되어 있고 다운로드 링크 찾기가 편해서 이거 쓰는게 낫더라.
아래 사이트:
https://github.com/UB-Mannheim/tesseract/wiki
다운받은거 실행한다. 어지간하면 건드릴 거 없으니 쭉 Next만 누른다. 그리고 아래 단계가 뜨면 추가 언어팩을 고른다.
이거는 설치 장소 기본값이 C:\Program Files\Tesseract-OCR 이다. (그런데 버전이나 설치위치 따라 폴더 주소가 달라지니까 주의한다. 디렉토리 기본값이, 고대 버전들은 C:\Users\USERNAME\Appdata\... 이고 32비트용은 C:\Program Files(x86)\... 인듯?)
설치가 끝나고서는 아래의 기본 코드를 넣어서 실행하였다. 이미지 관련 라이브러리인 cv2(Open Source Computer Vision Library)나 PIL(pillow)도 같이 써야 한다. 없으면 설치하시오. 나는 Anaconda3깔 때 PIL이 같이 들어있었다.
from PIL import Image
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseracte.exe"
img = Image.open(r"C:\Users\FOO\Downloads\TEST.png")
text = pytesseract.image_to_string(img)
print(text)
#1 이미지 처리 라이브러리 불러오기
#2 pytesseract 불러오기
#3 pytesseract 설치위치 알려주는 작업.
#4 이미지 파일 불러와서 저장
#5 이미지 파일 OCR 처리하여 저장
#6 저장된 텍스트 파일 출력
오류 원인과 해결
'파이썬(Python) > 그 밖에' 카테고리의 다른 글
한컴 수식 편집기의 수식과 latex 문법 대응 (0) | 2023.05.16 |
---|---|
Tesseract 한글 인식 성능 개선시도 1차: 큰 효과 없었다. (0) | 2023.05.15 |
Java2Python 설치 실패: Python 2.7 필요. && Java to Python online converter sites (0) | 2022.12.26 |