Быстрое обнаружение символов
-
22-08-2019 - |
Вопрос
Я не хочу знать, что он говорит, и он не будет иметь дело с какими-либо искажениями, такими как CAPTCHA, я просто хочу знать, есть ли связка изображений содержат любой текст.
Это то, что будет работать на паре простаивающих серверов Linux, и задание cron будет обрабатывать большую партию изображений несколько раз в день.
Одна из вещей, которую я хочу сделать в этом процессе, — это удалить все изображения с текстом.Я не против некоторых ложных срабатываний, но мне бы хотелось максимально приблизиться к нулевому проценту ошибок, когда дело доходит до идентификации изображений с текстом, который следует отбросить, насколько это возможно.
Решение
А Тессеракт-OCR это то, что Google использует для Google Книг.Попробуйте.
Не связан с StackOverflow