Словарь ad-hoc

https://stackoverflow.com//questions/25047110

21-12-2019
|

Вопрос

Я в данный момент работаю над небольшим проектом с FineReader 11 SDK.Чтобы улучшить мои результаты, мне нравится работать с Ad-Hoc.Содержание словаря основано на первом слове определенной линии

Пример:

Samsung Galaxy S3 ... many other word in this line
Apple Iphone 4 ... much more words
some more lines

Моя идея состоит в том, чтобы восстановить первое слово (Samsung или Apple) и заполнить словарь со всеми возможными словами, основанными на первом (для Samsung: Galaxy, S3, ...)

Любая идея, как решить это с FineReader

С уважением

Решение

Спасибо за разъяснение. Так вот то, что вы можете сделать на мой взгляд. Это относится к линейке продуктов FineReader, и, конечно, в SDK у вас есть более конкретный контроль через API.

FineReader OCR имеет эти словари:

Встроенный словарь - большой набор общих слов и их вариации, одна из сильных сторон технологии ABBYY OCR. Он не содержит специализированных слов, таких как «Samsung» и «S3», например. Выбирая популярный язык, вы автоматически включите встроенный словарь для этого языка.

пользовательский словарь - это словарь, который вы можете построить, и использовать в одиночку или в сочетании со встроенным словарем.

Так что для вашего проекта, я считаю, что имеет смысл использовать встроенный словарь, потому что ваши фразы могут иметь стандартные английские слова (вы не предоставляли полные фразы для меня, чтобы увидеть, чтобы решить на этом сам). >

Я также сильно верю, что вам нужно создать пользовательский словарь с брендами и моделями и т. Д. Если у вас есть этот вариант, и звучит так, как вы. Он значительно улучшит признание, особенно для не естественных слов, таких как «S3», потому что правила общего языка указывают на буквы и цифры не должны быть смешаны. Это очень легко сделать.

Я в настоящее время не вижу выгоды от чтения каждую строку с отдельным словарем, если вы не полагаете, что у вас будет пересечение очень похожих слов, применимых к разным линиям, и вы хотели бы эти слова в отдельных словарях и относительно каждой строки Отказ Затем вы можете создавать отдельные словари и включить каждый словарь для вторичного распознавания на основе начального слова. Однако для достижения того, что вам нужно сначала отделиться в строки (в памяти или на самом деле обрезать изображения), чтобы иметь возможность обработать каждый отдельно с уникальным словарем. Это возможно только в SDK с существенным количеством работ.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow