이미지의 텍스트가 잘 보이도록 전처리하는 방법 질의응답
https://stackoverflow.com/questions/9480013/image-processing-to-improve-tesseract-ocr-accuracy
image processing to improve tesseract OCR accuracy
I've been using tesseract to convert documents into text. The quality of the documents ranges wildly, and I'm looking for tips on what sort of image processing might improve the results. I've noti...
stackoverflow.com
위 글을 보고 GIMP를 깔아서 이미지를 더 크게 만들었으나(500*250 정도를 2000*1000 으로) 결과는 비슷했다.
차라리 tesseract를 사용하지 말고, 다음 매크로를 오토핫키나 파이썬으로 짜는게 나을까 싶다. 한글ocr 인식성능은 tesseract보다 구글이미지검색 쪽이 훨씬 좋아서다.
- 구글 이미지를 실행
- 선택한 이미지를 업로드
- 텍스트 전체 복사를 선택
- 복사한 텍스트를 가져와서 메모장 등에 붙이기
'tesseract 한글 인식률'으로 찾아보니까 문제의 원인과 해결책을 좀 알았다.
학습은 이렇게 시킨다고 한다.
https://wandukong.tistory.com/7
Tesseract OCR 5.0 Windows용 학습 방법
Tesseract OCR을 처음 학습시킬 때 정보가 충분하지 않아 오랜시간 헤맸던 기억이 있다. 방법을 찾아 학습시켜본 지는 꽤 오래됐지만 누군가에게 도움이 되지 않을까 해서 방법을 글로 정리해보려
wandukong.tistory.com
GIMP에서 이미지 확장자 형식(jpg, png 등)으로 저장하는 방법
GIMP에서 jpg나 png 등으로 저장하려면 Save(+as)가 아니라 Export(+as)로 저장해야 한다. Save as 창에서 확장자를 GIMP계열 확장자가 아닌 것으로 적으면, Export 창으로 갈 것인지 물어보고 확인 고르면 jpg등 일반 이미지로 저장하는 화면으로 갈 수 있다.
사진과 같이 설명


끝
습관적으로 Save(+as)를 눌렀다면, Name: 창에서 확장자를 강제로 jpg나 png 등으로 변경한다. 그러면 오류가 나면서 Export 기능 쓰라고 안내해준다.

'파이썬(Python) > 그 밖에' 카테고리의 다른 글
한컴 수식 편집기의 수식과 latex 문법 대응 (0) | 2023.05.16 |
---|---|
python. tesseract library 설치하고 실행: 가장 기초적인 코드를 넣었는데도 오류가 생기면 글자 실수를 확인하시오. (0) | 2023.05.12 |
Java2Python 설치 실패: Python 2.7 필요. && Java to Python online converter sites (0) | 2022.12.26 |