Diccionario Ad-hoc

https://stackoverflow.com//questions/25047110

21-12-2019
|

Pregunta

Estoy trabajando actualmente en un pequeño proyecto con FineReader 11 SDK.Para mejorar mis resultados, me gusta trabajar con un diccionario ad-hoc.El contenido del diccionario se basa en la primera palabra de una línea determinada

Ejemplo:

Samsung Galaxy S3 ... many other word in this line
Apple Iphone 4 ... much more words
some more lines

Mi idea es reconvertir la primera palabra (Samsung o Apple) y llenar el diccionario con todas las palabras posibles basadas en la primera (para Samsung: Galaxy, S3, ...)

Cualquier idea de cómo resolver esto con FineReader

Saludos

Solución

Gracias por la aclaración. Así que aquí está lo que puedes hacer en mi opinión. Esto se aplica a la línea de productos de FineReader, y, por supuesto, en el SDK, tiene un control más específico a través de API.

FineReaDer OCR tiene estos diccionarios:

Diccionario incorporado: gran conjunto de palabras comunes y sus variaciones, una de las fortalezas de la tecnología ABBYY OCR. No contiene palabras especializadas, como "Samsung" y "S3", por ejemplo. Al seleccionar el idioma popular, automáticamente enciende el diccionario incorporado para ese idioma.

Diccionario personalizado: este es un diccionario que puede construir y usar solo o en conjunto con el diccionario incorporado.

Para su proyecto, creo que tiene sentido usar el diccionario incorporado, ya que sus frases pueden tener palabras en inglés estándar (no proporcionó frases completas para que vea, así que decida sobre esto usted mismo).

También creo firmemente que necesita crear un diccionario personalizado con marcas y modelos, etc. Si tiene esa opción, y suena como lo hace. Mejorará enormemente el reconocimiento, especialmente para las palabras no naturales, como "S3", porque las reglas de lenguaje comunes indican que las letras y los números no deben mezclarse. Esto es muy fácil de hacer.

Actualmente no veo el beneficio de leer cada línea con un diccionario separado, a menos que crea que tendrá una intersección de palabras muy similares aplicables a diferentes líneas, y usted querrá esas palabras en diccionarios separados y en relación con cada línea . Luego, puede crear diccionarios separados, y activar cada diccionario para el reconocimiento secundario según la palabra inicial. Sin embargo, para lograrlo, debe excluir primero las líneas (en la memoria o en las imágenes de cultivo) para poder procesar cada una por separado con un diccionario único. Eso es posible solo en SDK con una cantidad sustancial de trabajo.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow