Python Tesseract не может распознать этот шрифт

https://stackoverflow.com/questions/1762565

21-09-2019
|

Вопрос

У меня есть этот образ:

Я хочу преобразовать его в строку, используя python, что, как я думал, будет не так сложно.Я наткнулся на tesseract, а затем на оболочку для скриптов python, использующую tesseract.

Итак, я начал читать изображения, и это отлично получалось, пока я не попытался прочитать это.Нужно ли мне будет обучать его читать этот конкретный шрифт?Есть какие-нибудь идеи относительно того, что это за конкретный шрифт?Или есть лучший движок распознавания текста, который я мог бы использовать с python для выполнения этой работы.

Редактировать:Возможно, я мог бы создать какой-то вектор вокруг чисел, а затем перерисовать их в большем размере?Чем больше изображения, тем лучше tesseract ocr, кажется, их считывает (неудивительно, лол).

Решение

Просто подготовьте двигатель к использованию 10 цифр и буквы "." .Этого должно хватить.И убедитесь, что вы изменили свое изображение на оттенки серого, прежде чем распознавать его.

Другие советы

Тренировки - это тяжело, и это не то, что здесь действительно нужно.Провести различие между O и 0, l и 1 будет непросто, независимо от сценария.Ограничение распознавания текста выбором только между цифровыми цифрами значительно упрощает проблему, если это позволяет контекст.

Мой интерес к tesseract заключается в обработке большого количества цифр из старых правительственных отчетов.В этом случае и в рассматриваемом случае набор символов будет чем-то вроде '0123456789.' Следуя комментарию в старой группе новостей (sourceforge) для tesseract, написанному eric_taj от 2007-03-21, вы можете изменить Templates->indexFor и Templates-> ClassIdFor в classify/intproto.cpp чтобы замаскировать символы, которые не должны быть разрешены.Я немного изменил этот подход, чтобы читать разрешенный набор символов во время выполнения в переменной окружения, чтобы я мог корректировать разрешенный набор "на лету".

На эту тему было много трафика дискуссионная группа Tesseract OCR недавно.Вам нужно будет использовать «язык» только цифр.Многие люди раньше тренировали двигатель таким образом.Похоже, вы пытаетесь перехитрить схему защиты данных с помощью капчи...цк, цк.

Распознавание мелкого экранного шрифта может оказаться затруднительным для универсального оптического распознавания символов, оптимизированного для чтения крупного гладкого шрифта, отсканированного с бумаги.

Возможно, вам лучше попробовать специальное распознавание скриншотов, напримерТексттракт SDK.Он соберет все локальные шрифты и обеспечит 100% точное распознавание, просто сопоставляя символы.

Похоже на шрифт Евростиль.Да, вам придется тренироваться с каждым шрифтом, который используется в исходных изображениях.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow