Comment trouver champ vide sur l'image du document numérisé

https://stackoverflow.com/questions/548309

23-08-2019
|

Question

Je veux que ma demande de remplir un seul champ sous une forme existe sous forme de fichier image en noir et blanc. La forme toujours commence comme la même version papier, mais le temps que mon application, il obtient de mes utilisateurs, il peut avoir été balayé par télécopieur ou plus une fois. À cause de cela, le domaine dont j'ai besoin est pas dans la même dans chaque fichier.

Mes utilisateurs ne reçoivent pas toujours la forme vide de moi, donc je ne ont la possibilité d'imprimer une marque ou un espace réservé que je peux reconnaître plus tard.

Il y a du texte sur le formulaire vierge d'origine, mais parce qu'il peut ont été faxé, j'ai seulement 200 dpi de résolution. Le texte est toujours assez grand pour un être humain à lire, mais je suis sceptique A propos de l'OCR.

J'ai un peu de budget, donc je ne pas besoin d'une solution libre ... nous allons juste dire 2000 $.

Cela dit, je considérais

Obtenir une solution OCR pour trouver le texte étiquette sur le terrain que j'ai besoin. Non pense avoir les ressources ou expertise pour rouler-my-propre. Non besoin d'une reconnaissance parfaite, puisque je savent déjà ce que dit le texte. Mais je dois savoir et X- Y coordonnées. Y at-il un logiciel qui fait cela? Ou est la programmation plus facile que je pense?
Construire ou acheter un logiciel pour reconnaître les bords de la forme. De là, Je pourrais obtenir la position relative le terrain j'ai besoin. je pense à le logiciel de ligne en pointillés mon scanner met autour de l'image un petit document. Est-ce une connue algorhthm ou est-il un disponible solution?
Une autre façon de reconnaître la terrain j'ai besoin. Les tentatives de google Formez le logiciel de remplissage me donner des centaines de matchs pour les formulaires Web, formulaires PDF, etc. qui ne font pas ce que je besoin.

Je ne suis pas pointilleux sur la langue. Mon application fonctionne sur Linux, mais si la meilleure solution est Microsoft, je peux probablement faire ce travail.

Je vous remercie de vos pensées.

La solution

Si je comprends bien, la forme est toujours le même, mais il peut être déplacé, mis à l'échelle, ou légèrement tourné grâce à la photocopie / télécopie. Dans ce cas, votre problème est l'un des Enregistrement de l'image : trouver la transformation rigide optimale qui fait une forme d'une ligne d'utilisateur avec votre formulaire « modèle », dans lequel vous connaissez l'emplacement du champ de l'intérêt. Une fois que vous savez la transformation, vous pouvez calculer l'emplacement du champ dans la forme de l'utilisateur.

Il existe de nombreux algorithmes d'enregistrement d'image, généralement développés pour des applications telles que l'alignement MR-images du cerveau. Ils sont informatiquement coûteux et nécessitent prieurs statistiques. Heureusement, votre cas est plus facile: tout ce que vous devez faire est de monter un rectangle autour du contenu de la forme de l'utilisateur. Coordonner la descente devrait fonctionner. Vous aurez besoin d'une certaine tolérance pour le bruit (indésirable en dehors de la forme).

Autres conseils

Voici un petit résumé de quelques solutions disponibles OCR (open source et non): http://googlesystem.blogspot.com/2007/04/open-source-ocr-software-sponsored-by.html

recalage peut ne pas être suffisant. Les utilisateurs peuvent modifier la mise en page et la mise en forme d'une forme de modèle, par exemple modifier les polices, changer l'emplacement d'une case à cocher ou une zone de saisie, briser un paragraphe à différentes positions de saut de ligne, etc. Ces différences sont plus difficiles à traiter que pur décalage, la rotation ou la transformation d'échelle. En outre, si votre image est l'image binaire (noir et blanc), je ne pense pas que ces algorithmes d'enregistrement d'images médicales (travail sur l'image en niveaux de gris) aidera beaucoup. Votre fonction des coûts et des stratégies de minimisation peuvent être modifiées en conséquence.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow