Dictionnaire ad-hoc

https://stackoverflow.com//questions/25047110

21-12-2019
|

Question

Je travaille actuellement sur un petit projet avec FineReader 11 SDK.Pour améliorer mes résultats, j'aime travailler avec un dictionnaire ad hoc.Le contenu du dictionnaire est basé sur le premier mot d'une certaine ligne

Exemple:

Samsung Galaxy S3 ... many other word in this line
Apple Iphone 4 ... much more words
some more lines

Mon idée est de recongiser le premier mot (Samsung ou Apple) et remplir le dictionnaire avec tous les mots possibles en fonction du premier (pour Samsung: Galaxy, S3, ...)

Une idée de la façon de résoudre ceci avec FineReader

Cordialement

La solution

Merci pour la clarification. Voici donc ce que vous pouvez faire à mon avis. Ceci s'applique à la gamme de produits FineReader, et bien sûr dans le SDK, vous avez un contrôle plus spécifique via API.

FineReader OCR a ces dictionnaires:

Dictionnaire intégré - Un ensemble de mots communs et de leurs variations, l'un des atouts de la technologie ABBYY OCR. Il ne contient pas de mots spécialisés, tels que "Samsung" et "S3", par exemple. En sélectionnant une langue populaire, vous allumez automatiquement le dictionnaire intégré pour cette langue.

Dictionnaire personnalisé - Il s'agit d'un dictionnaire que vous pouvez construire et d'utiliser seul ou en conjonction avec dictionnaire intégré.

Donc, pour votre projet, je pense qu'il est logique d'utiliser un dictionnaire intégré, car vos phrases peuvent avoir des mots anglais standard (vous n'avez pas fourni de phrases complètes pour que je puisse voir, alors décidez-en vous-même).

Je crois aussi fermement que vous devez créer un dictionnaire personnalisé avec des marques et des modèles, etc. Si vous avez cette option, et sonne comme vous le faites. Cela améliorera grandement la reconnaissance, en particulier pour les mots non naturels, comme «S3», car les règles de langue courantes indiquent des lettres et des chiffres ne doivent pas être mélangés. C'est très facile à faire.

Je ne vois actuellement pas l'avantage de lire chaque ligne avec un dictionnaire séparé, à moins que vous ne croyez que vous aurez une intersection de mots très similaires applicables à différentes lignes, et vous voudriez ces mots dans des dictionnaires distincts et par rapport à chaque ligne. . Ensuite, vous pouvez créer des dictionnaires distincts et allumer chaque dictionnaire pour une reconnaissance secondaire en fonction du mot initial. Cependant, pour y parvenir, vous devez d'abord se séparer en lignes (en mémoire, ou réellement des images de culture) afin de pouvoir traiter chaque séparément avec un dictionnaire unique. Cela n'est possible que dans le SDK avec une quantité substantielle de travail.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow