문제
나는 그것이 무엇을 말하는지 알고 싶지 않으며, 그것은 캡처와 같은 왜곡을 다루지 않을 것입니다. 나는 단지 다발 이미지에는 텍스트가 포함되어 있습니다.
이것은 두 개의 유휴 Linux 서버에서 실행될 예정이며 Cron 작업은 하루에 여러 번 많은 이미지를 처리합니다.
프로세스에서 내가하고 싶은 일 중 하나는 텍스트가있는 이미지를 버리는 것입니다. 나는 약간의 긍정을 신경 쓰지 않지만 가능한 한 버려야 할 텍스트가있는 이미지를 식별 할 때 0 % 실패율에 가까워지고 싶습니다.
해결책
그만큼 Tesseract-Aroc Google이 Google 도서에 사용하는 것입니다. 시도 해봐.
제휴하지 않습니다 StackOverflow