PDF Extraction de données - Besoin de suggestions

https://stackoverflow.com/questions/5338062

26-10-2019
|

Question

I a créé un outil d'extraction pdf . Exemple d'écran fixé. L'utilisateur peut charger un fichier pdf et sélectionner la zone de données qu'il veut. grab alors je coordonnées pdf et numéro de page puis enregistrez-le comme modèle. Une fois que l'utilisateur a donne une liste de fichiers PDF outil est capable d'extraire des données selon le fichier modèle. Mon outil est très similaire à ce sujet.

problème maintenant est parfois dans certains pdfs la partie des données nécessaires à l'extraction est déplacé à la page suivante. (La raison de décalage est,. Je donnerai exemple Si vous pensez une facture de la liste des articles que vous avez achetés, La place de la « Valeur totale » imprimé est dépendent le nombre d'articles que vous avez acheté. si elle est un total de longue liste est par ailleurs en bas, au milieu ou en haut près)

Par conséquent, maintenant je pense à identifier la structure du pdf au lieu d'obtenir les coordonnées.

Mais je n'ai pas une idée claire de le faire. S'il vous plaît quoi que ce soit part, vous pensez que l'aide pour résoudre ce problème. Je le répète encore une fois que je suis en train de récupérer les données d'un pdf. Il est donc possible de saisir la structure d'un fichier pdf .

Mon idée est de savoir si je peux identifier la structure que je peux alors dire où la valeur est. Par exemple, j'essayé de convertir pdf en html et essayer de naviguer à travers les valeurs de balise html. (Corps-> div-> table-> TD-> etc.) Mais il n'a pas réussi ..: (

La solution

PDF ne dispose que de faibles structures, rien comme divs ou des conteneurs. Il y a des groupes de calques et similaires, mais les coordonnées sont la seule chose, vous pouvez compter sur.

Essayez de décrire le type de texte et les marges de gauche et de droite, pour rendre votre page de capture indépendante.

Autres conseils

Le format de fichier PDF comprend un ensemble facultatif de metatags. Si ceux-ci sont utilisés, le fichier aura une certaine structure. Sinon, vous êtes hors de la chance. J'ai écrit un billet de blog vous dire comment trouver cela à http://www.jpedal.org/PDFblog/2010/09/the-easy-way-to-discover-if-a-pdf-file-contains -structured-content /

Vous pouvez utiliser une « ancre », comme « Quantité de commande » et des données de capture par rapport à celle-ci. Jetez un oeil à www.ivytools.net - dans cet outil, vous pouvez définir des règles qui précisent comment trouver les valeurs relatives à un autre texte dans le document. Dans votre exemple, il serait quelque chose comme:

p.Find("ORDER QTY").Down()

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow