Вопрос

Я сканирую множество документов A3, используя стандартный многофункциональный брат A3, а затем использую Finereader Pro для изображения изображений.

Тем не менее, я получаю много ошибок в узнаваемых персонажах, и много не альфанокоеничных странных персонажей.

Может ли кто-нибудь дать мне какие-либо советы по программному повышению точности OCR, либо предварительной обработки на отсканированных изображениях, либо после обработки по распознаваемому тексту?


Редактировать: Найдите образец PDF. Анкет Он включает в себя некоторые образцы изображений, из которых я получаю самые плохие результаты.

Это было полезно?

Решение

У вас есть образец изображения, которое вы можете опубликовать где -нибудь, тогда мы можем быстро рассказать вам, что вызывает большинство ваших проблем. Finereader - один из лучших двигателей OCR, поэтому есть определенно причины, по которым вы получаете плохие результаты.

Это может быть связано с плохими контрастными и пороговыми настройками, перекосом изображений, грязными роликами в сканере, сложным и цветным фоном, рассеянным фоном, размерами шрифтов, слишком маленькими, сканирующий DPI является слишком низким и т. Д.

Увидев прикрепленное изображение, есть несколько небольших проблем.

  1. На фоновой странице много грязных пятен. Finereader, кажется, выполняет разумную работу с этим на ваших изображениях.
  2. Есть немного небольшого перекоса, но это не вызывает и проблемы.
  3. Finereader запутывается с шрифтом Bold Tall Arial, используемым для заголовков колонн.
    4 Похоже, что большая проблема - нижняя область страниц, где контраст плохая, а изображение нечетко. Похоже, это проблема с сканером, но может быть связано с проблемами печати.

Печать довольно плохая, и я предполагаю, что это сканирование из газеты. Большая часть ваших ошибок связана с проблемами сканирования, поэтому было бы трудно программно улучшить результаты.

Во -первых, я бы попробовал сканировать изображение в сероме, используя немного более высокое разрешение и посмотрел, поможет ли это. Finereader хорошо работает с изображениями GreyScale. Если вам нужно иметь изображение B/W, посмотрите, включает ли драйвер сканера настройку для динамического порога и включите его.

Ваши изображения не будут легкой задачей для любого двигателя OCR. Вы получите лучшие результаты, если сможете улучшить сканирование. Страница 3 имеет много шума в правом нижнем углу.

Какую версию Finereasder вы используете? FR10, вероятно, даст лучшие результаты, чем предыдущие версии.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top