Какой идеальный шрифт для распознавания текста?

StackOverflow https://stackoverflow.com/questions/316068

  •  11-07-2019
  •  | 
  •  

Вопрос

Есть ли у кого-нибудь опыт работы с разными шрифтами для распознавания текста? Я генерирую идентификатор, а затем пытаюсь сканировать его с помощью tesseract. На данный момент я просто использую разные шрифты, но это кажется неэффективным. Я пробовал семейство шрифтов OCR * и другие, такие как Arial и Georgia. Тессеракт обычно путают со шрифтами OCR *.

Есть ли какой-нибудь шрифт, специально разработанный для tesseract, или системный шрифт, который хорошо с ним работает?

Это было полезно?

Решение

Хорошо, поиск в Google подходит для этого, определенного шрифта OCR: Шрифт OCR

Похоже, это стандарт, принятый в 1973 году.

Другие советы

Попробовав множество разных шрифтов и механизмов распознавания , я стремлюсь получить наилучшие результаты, используя Консолас . Это моноширинный шрифт, такой как OCR-A, но его легче читать для людей. Consolas входит в несколько продуктов Microsoft.

Существует также шрифт с открытым исходным кодом Inconsolata , который находится под влиянием Консоласа. Inconsolata - хорошая замена для Consolas, особенно с учетом деталей лицензирования.

В моих тестах числа и пробелы в шрифт Calibri не всегда распознавались должным образом , OCR-A дал много ошибок чтения. Я не дал MIRC попробовать, так как это не легко читается для большинства людей.

Примечание . Тессеракт требует значительного тестирования и тонкой настройки, чтобы быть надежным. В нашем случае мы перешли на коммерчески лицензированный механизм OCR (ABBYY), тем более что надежность была очень важна, и нам нужно было поддерживать несколько (европейских) языков.

Обновление: 2017 г., 31 января - изменено значение на основе Consolas на под влиянием Consolas из-за потенциальных проблем с авторским правом.

Я считаю, что Calibri работает лучше для меня. Мы ежедневно используем программное обеспечение OCR в автоматизированной системе, и после тестирования десятков шрифтов (включая некоторые специфические для OCR), что Calibri неизменно является лучшим.

Удачи.

Я бы, вероятно, использовал тот же шрифт, который банки используют для номеров маршрутизации в нижней части чеков:

http://morovia.com/font/micr.asp

Он был специально разработан для однозначной машиночитаемости.

У меня всегда был успех, просто используя времена нового римского ..

Недавно я провел обширное тестирование в ECM под названием Laserfiche, в котором используется Nuance OmniPage, и обнаружил, что моноширинные шрифты работают хуже по сравнению с динамически разнесенными шрифтами. Эти старые шрифты OCR работают не так хорошо, как более «нормальные» шрифты. Особенно для строк чисел с меньшими размерами шрифта, таких как пункт 12.

Странно, что кто-то еще добился успеха в Calibri. Он показал очень плохие результаты в моих тестах, обычно получая похожие буквы и цифры, которые путают друг с другом. Лучшими шрифтами (среди тех, которые поставляются на компьютер с Windows с установленным Office) были Consolas, Verdana и Book Antiqua. Все динамические шрифты с засечками, где буквы и цифры выглядят четко. Консолас был чемпионом.

В настоящее время используется Monospace. Перепробовал очень много шрифтов, но это самый точный для меня.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top