Какой идеальный шрифт для распознавания текста?
Вопрос
Есть ли у кого-нибудь опыт работы с разными шрифтами для распознавания текста? Я генерирую идентификатор, а затем пытаюсь сканировать его с помощью tesseract. На данный момент я просто использую разные шрифты, но это кажется неэффективным. Я пробовал семейство шрифтов OCR * и другие, такие как Arial и Georgia. Тессеракт обычно путают со шрифтами OCR *.
Есть ли какой-нибудь шрифт, специально разработанный для tesseract, или системный шрифт, который хорошо с ним работает?
Решение
Хорошо, поиск в Google подходит для этого, определенного шрифта OCR: Шрифт OCR
Похоже, это стандарт, принятый в 1973 году.
Другие советы
Попробовав множество разных шрифтов и механизмов распознавания , я стремлюсь получить наилучшие результаты, используя Консолас . Это моноширинный шрифт, такой как OCR-A, но его легче читать для людей. Consolas входит в несколько продуктов Microsoft.
Существует также шрифт с открытым исходным кодом Inconsolata , который находится под влиянием Консоласа. Inconsolata - хорошая замена для Consolas, особенно с учетом деталей лицензирования.
В моих тестах числа и пробелы в шрифт Calibri не всегда распознавались должным образом , OCR-A дал много ошибок чтения. Я не дал MIRC попробовать, так как это не легко читается для большинства людей.
Примечание . Тессеракт требует значительного тестирования и тонкой настройки, чтобы быть надежным. В нашем случае мы перешли на коммерчески лицензированный механизм OCR (ABBYY), тем более что надежность была очень важна, и нам нужно было поддерживать несколько (европейских) языков.
Обновление: 2017 г., 31 января - изменено значение на основе Consolas на под влиянием Consolas из-за потенциальных проблем с авторским правом. р>
Я считаю, что Calibri работает лучше для меня. Мы ежедневно используем программное обеспечение OCR в автоматизированной системе, и после тестирования десятков шрифтов (включая некоторые специфические для OCR), что Calibri неизменно является лучшим.
Удачи.
Я бы, вероятно, использовал тот же шрифт, который банки используют для номеров маршрутизации в нижней части чеков:
http://morovia.com/font/micr.asp
Он был специально разработан для однозначной машиночитаемости.
У меня всегда был успех, просто используя времена нового римского ..
Недавно я провел обширное тестирование в ECM под названием Laserfiche, в котором используется Nuance OmniPage, и обнаружил, что моноширинные шрифты работают хуже по сравнению с динамически разнесенными шрифтами. Эти старые шрифты OCR работают не так хорошо, как более «нормальные» шрифты. Особенно для строк чисел с меньшими размерами шрифта, таких как пункт 12.
Странно, что кто-то еще добился успеха в Calibri. Он показал очень плохие результаты в моих тестах, обычно получая похожие буквы и цифры, которые путают друг с другом. Лучшими шрифтами (среди тех, которые поставляются на компьютер с Windows с установленным Office) были Consolas, Verdana и Book Antiqua. Все динамические шрифты с засечками, где буквы и цифры выглядят четко. Консолас был чемпионом.
В настоящее время используется Monospace. Перепробовал очень много шрифтов, но это самый точный для меня.