PDF Estrazione dei dati - bisogno di suggerimenti

https://stackoverflow.com/questions/5338062

26-10-2019
|

Domanda

Ho creato uno strumento pdf estrazione . schermo campione allegato. entrare descrizione dell'immagine qui L'utente può caricare un file PDF e selezionare l'area di dati che vuole. Poi ho afferrare coordinate pdf e numero di pagina e quindi salvarlo come modello. Una volta che un utente invia un elenco di file pdf strumento è in grado di estrarre i dati in base al file di modello. Il mio strumento è molto simile a questo.

problema ora è a volte in alcuni file PDF la parte di dati necessari per l'estratto viene spostata alla pagina successiva. (Il motivo per lo spostamento è;. Darò un Esempio Se pensate che un disegno di legge di elenco di articoli che avete comprato, Il luogo di "Valore totale" stampato è dipendono il numero di oggetti che hanno acquistato:. se si tratta di una lunga lista totale va sotto altrimenti, centro o nei pressi di cima)

Quindi ora sto pensando a identificare la struttura del pdf invece di ottenere le coordinate.

Ma non hanno una chiara idea di farlo. Si prega di condividere qualsiasi cosa, si pensa che l'aiuto per risolvere questo problema. Ripeto ancora una volta che sto cercando di afferrare i dati da un PDF. Quindi è possibile catturare la struttura di un pdf file.

La mia idea è che se riesco a identificare la struttura allora posso dire dove il valore è. Per esempio ho provato a convertire i pdf in html e cercare di navigare attraverso i valori delle variabili html. (Corpo-> div-> tavola-> TD-> etc.) Ma non era successo ..: (

Soluzione

PDF ha solo strutture deboli, niente come div o contenitori. Ci sono gruppi di livelli e simili, ma le coordinate sono l'unica cosa, si può contare su.

Prova a descrivere il tipo di testo e dei margini di destra e sinistra, per rendere la vostra pagina di bloccaggio indipendente.

Altri suggerimenti

Il formato di file PDF include un set opzionale di metatag. Se si utilizzano questi, il file avrà qualche struttura. In caso contrario, si è fuori di fortuna. Ho scritto un post sul blog che ti dice come trovare questo fuori a http://www.jpedal.org/PDFblog/2010/09/the-easy-way-to-discover-if-a-pdf-file-contains -structured-content /

È possibile utilizzare un po 'di "ancora", come "ORDINE QTY" e quindi i dati di cattura relativi a quello. Date un'occhiata a www.ivytools.net - in questo strumento è possibile definire regole che specificano come per trovare i valori relativi per altro testo nel documento. Nel tuo esempio, sarebbe qualcosa di simile:

p.Find("ORDER QTY").Down()

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow