Вопрос

Я не хочу знать, что он говорит, и он не будет иметь дело с какими-либо искажениями, такими как CAPTCHA, я просто хочу знать, есть ли связка изображений содержат любой текст.

Это то, что будет работать на паре простаивающих серверов Linux, и задание cron будет обрабатывать большую партию изображений несколько раз в день.

Одна из вещей, которую я хочу сделать в этом процессе, — это удалить все изображения с текстом.Я не против некоторых ложных срабатываний, но мне бы хотелось максимально приблизиться к нулевому проценту ошибок, когда дело доходит до идентификации изображений с текстом, который следует отбросить, насколько это возможно.

Это было полезно?

Решение

А Тессеракт-OCR это то, что Google использует для Google Книг.Попробуйте.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top