Вопрос
Я в данный момент работаю над небольшим проектом с FineReader 11 SDK.Чтобы улучшить мои результаты, мне нравится работать с Ad-Hoc.Содержание словаря основано на первом слове определенной линии
Пример:
Samsung Galaxy S3 ... many other word in this line
Apple Iphone 4 ... much more words
some more lines
.
Моя идея состоит в том, чтобы восстановить первое слово (Samsung или Apple) и заполнить словарь со всеми возможными словами, основанными на первом (для Samsung: Galaxy, S3, ...)
Любая идея, как решить это с FineReader
С уважением
Решение
Спасибо за разъяснение. Так вот то, что вы можете сделать на мой взгляд. Это относится к линейке продуктов FineReader, и, конечно, в SDK у вас есть более конкретный контроль через API.
FineReader OCR имеет эти словари:
- .
-
Встроенный словарь - большой набор общих слов и их вариации, одна из сильных сторон технологии ABBYY OCR. Он не содержит специализированных слов, таких как «Samsung» и «S3», например. Выбирая популярный язык, вы автоматически включите встроенный словарь для этого языка.
-
пользовательский словарь - это словарь, который вы можете построить, и использовать в одиночку или в сочетании со встроенным словарем.
Так что для вашего проекта, я считаю, что имеет смысл использовать встроенный словарь, потому что ваши фразы могут иметь стандартные английские слова (вы не предоставляли полные фразы для меня, чтобы увидеть, чтобы решить на этом сам). >
Я также сильно верю, что вам нужно создать пользовательский словарь с брендами и моделями и т. Д. Если у вас есть этот вариант, и звучит так, как вы. Он значительно улучшит признание, особенно для не естественных слов, таких как «S3», потому что правила общего языка указывают на буквы и цифры не должны быть смешаны. Это очень легко сделать.
Я в настоящее время не вижу выгоды от чтения каждую строку с отдельным словарем, если вы не полагаете, что у вас будет пересечение очень похожих слов, применимых к разным линиям, и вы хотели бы эти слова в отдельных словарях и относительно каждой строки Отказ Затем вы можете создавать отдельные словари и включить каждый словарь для вторичного распознавания на основе начального слова. Однако для достижения того, что вам нужно сначала отделиться в строки (в памяти или на самом деле обрезать изображения), чтобы иметь возможность обработать каждый отдельно с уникальным словарем. Это возможно только в SDK с существенным количеством работ.