Повысить точность OCR из отсканированных документов
-
09-10-2019 - |
Вопрос
Я сканирую множество документов A3, используя стандартный многофункциональный брат A3, а затем использую Finereader Pro для изображения изображений.
Тем не менее, я получаю много ошибок в узнаваемых персонажах, и много не альфанокоеничных странных персонажей.
Может ли кто-нибудь дать мне какие-либо советы по программному повышению точности OCR, либо предварительной обработки на отсканированных изображениях, либо после обработки по распознаваемому тексту?
Редактировать: Найдите образец PDF. Анкет Он включает в себя некоторые образцы изображений, из которых я получаю самые плохие результаты.
Решение
У вас есть образец изображения, которое вы можете опубликовать где -нибудь, тогда мы можем быстро рассказать вам, что вызывает большинство ваших проблем. Finereader - один из лучших двигателей OCR, поэтому есть определенно причины, по которым вы получаете плохие результаты.
Это может быть связано с плохими контрастными и пороговыми настройками, перекосом изображений, грязными роликами в сканере, сложным и цветным фоном, рассеянным фоном, размерами шрифтов, слишком маленькими, сканирующий DPI является слишком низким и т. Д.
Увидев прикрепленное изображение, есть несколько небольших проблем.
- На фоновой странице много грязных пятен. Finereader, кажется, выполняет разумную работу с этим на ваших изображениях.
- Есть немного небольшого перекоса, но это не вызывает и проблемы.
- Finereader запутывается с шрифтом Bold Tall Arial, используемым для заголовков колонн.
4 Похоже, что большая проблема - нижняя область страниц, где контраст плохая, а изображение нечетко. Похоже, это проблема с сканером, но может быть связано с проблемами печати.
Печать довольно плохая, и я предполагаю, что это сканирование из газеты. Большая часть ваших ошибок связана с проблемами сканирования, поэтому было бы трудно программно улучшить результаты.
Во -первых, я бы попробовал сканировать изображение в сероме, используя немного более высокое разрешение и посмотрел, поможет ли это. Finereader хорошо работает с изображениями GreyScale. Если вам нужно иметь изображение B/W, посмотрите, включает ли драйвер сканера настройку для динамического порога и включите его.
Ваши изображения не будут легкой задачей для любого двигателя OCR. Вы получите лучшие результаты, если сможете улучшить сканирование. Страница 3 имеет много шума в правом нижнем углу.
Какую версию Finereasder вы используете? FR10, вероятно, даст лучшие результаты, чем предыдущие версии.