Domanda

Riceviamo una grande quantità di dati dai nostri clienti in file PDF in vari formati [dal punto di vista del layout], questi file sono in genere output di report e in genere sono annotati correttamente [di solito non necessitano di OCR], ma non sono formattati abbastanza bene da poter essere copiare semplicemente diverse centinaia di pagine di testo da Acrobat non funzionerà.

L'approccio migliore che ho trovato finora è scrivere uno script per analizzare l'output xml quasi valido (i commenti non sono validi e molti caratteri vengono sottoposti a escape in vari modi, é diventa [[[e9]]]é, $ diventa \ $, % diventa \%...) dell'utilità da riga di comando pdftoipe (per convertire file pdf per un programma chiamato ipe), che mi fornisce elementi di testo con le loro posizioni su ogni pagina [vedi esempio di seguito], che funziona abbastanza bene per i report in cui gli stessi valori si trovano nella stessa posizione su ogni pagina che mi interessa, ma richiederebbe uno sforzo di scripting aggiuntivo per l'importazione della matrice [tabella incrociata] file pdf.pdftoipe non è affatto pensato per questo e nella migliore delle ipotesi può essere compilato manualmente utilizzando cygwin per Windows.

Esistono librerie che lo rendono semplice da qualche linguaggio di scripting che posso tollerare?Anche uno strumento grafico sarebbe fantastico.E un pony.

output pdftoipe di questo campione Somiglia a questo:

<ipe creator="pdftoipe 2006/10/09"><info media="0 0 612 792"/>
<-- Page: 1 1 -->
<page gridsize="8">
<path fill="1 1 1" fillrule="wind">
64.8 144 m
486 144 l
486 727.2 l
64.8 727.2 l
64.8 144 l
h
</path>
<path fill="1 1 1" fillrule="wind">
64.8 144 m
486 144 l
486 727.2 l
64.8 727.2 l
64.8 144 l
h
</path>
<path fill="1 1 1" fillrule="wind">
64.8 144 m
486 144 l
486 727.2 l
64.8 727.2 l
64.8 144 l
h
</path>
<text stroke="1 0 0" pos="0 0" size="18" transformable="yes" matrix="1 0 0 1 181.8 707.88">This is a sample PDF fil</text>
<text stroke="1 0 0" pos="0 0" size="18" transformable="yes" matrix="1 0 0 1 356.28 707.88">e.</text>
<text stroke="1 0 0" pos="0 0" size="18" transformable="yes" matrix="1 0 0 1 368.76 707.88"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 692.4"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 677.88"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 663.36"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 648.84"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 634.32"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 619.8"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 605.28"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 590.76"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 576.24"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 561.72"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 547.2"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 532.68"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 518.16"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 503.64"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 489.12"> </text>
<text stroke="0 0 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 67.32 474.6"> </text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 67.32 456.24">If you can read this</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 214.92 456.24">,</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 219.48 456.24"> you already have A</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 370.8 456.24">dobe Acrobat </text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 67.32 437.64">Reader i</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 131.28 437.64">n</text>
<text stroke="0 0 1" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 141.12 437.64">stalled on your computer.</text>
<text stroke="0 0 0" pos="0 0" size="16.2" transformable="yes" matrix="1 0 0 1 337.92 437.64"> </text>
<text stroke="0 0.502 0" pos="0 0" size="12.6" transformable="yes" matrix="1 0 0 1 342.48 437.64"> </text>
<image width="800" height="600" rect="-92.04 800.64 374.4 449.76" ColorSpace="DeviceRGB" BitsPerComponent="8" Filter="DCTDecode" length="369925">
feedcafebabe...
</image>
</page>
</ipe>
È stato utile?

Soluzione

Noi usiamo Xpdf in una delle nostre applicazioni.È una libreria C++ utilizzata principalmente per il rendering di PDF, sebbene abbia un estrattore di testo che potrebbe essere utile per questo progetto.

Altri suggerimenti

Se ti va bene chiamare qualcosa di esterno, puoi usare ghostscript - guarda lo script ps2ascii incluso nella distribuzione.Non sono sicuro di cosa desideri da uno strumento grafico: un grande pulsante da premere per scegliere i file di input e di output?Un'anteprima?Potresti essere in grado di utilizzare GSView, a seconda di ciò che desideri.

pdftohtml -xml

anche se pdftoipe sembra più dettagliato!!

Hai dato un'occhiata ad Aspose?Lo stiamo utilizzando per un'app ASP.net e ho visto anche alcuni esempi di utilizzo di vbscript.Non è nemmeno particolarmente costoso.

http://www.aspose.com/

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top