Domanda

Per un piccolo progetto devo analizzare i file pdf e prenderne una parte specifica (una semplice catena di caratteri).Mi piacerebbe usare Python per fare questo e ho trovato diverse librerie che sono in grado di fare quello che voglio in qualche modo.

Ma ora, dopo alcune ricerche, mi chiedo quale sia la reale struttura di un file PDF, qualcuno sa se ci sono specifiche o spiegazioni da qualche parte online?Ho trovato un collegamento su Adobe ma sembra che sia un collegamento morto :(

È stato utile?

Soluzione

Ecco un collegamento al materiale di riferimento di Adobe

http://www.adobe.com/devnet/pdf/pdf_reference.html

Dovresti sapere però che il PDF riguarda solo la presentazione, non la struttura.L'analisi non sarà facile.

Altri suggerimenti

Quando ho iniziato a lavorare con PDF, ho trovato il file Riferimento PDF molto difficile da navigare.Potrebbe aiutarti sapere che la panoramica della struttura del file si trova nella sintassi e ciò che Adobe chiama struttura del documento è la struttura dell'oggetto e non la struttura del file.Questo si trova anche nella sintassi.La descrizione degli operatori è nascosta nell'Appendice A, molto utile per comprendere cosa sta accadendo nei flussi di contenuto.Se mai avrai la fatica di lavorare con gli spazi colore, lo troverai nascosto in Grafica!Spero che questi suggerimenti ti aiutino a trovare le cose più rapidamente di me.

Se utilizzi Windows, pdftron CosEdit ti permette di sfogliare la struttura dell'oggetto per capirlo.È disponibile una demo gratuita che consente di esaminare il file ma non di salvarlo.

Ho trovato il GNU Introduzione al PDF essere utile per comprendere la struttura.Include un file facilmente leggibile file PDF di esempio che descrivono in dettaglio.

Altri link utili:

Ecco il crudo riferimento del PDF 1.7, ed ecco un articolo descrivere la struttura di un PDF file.Se usi Vim, il plugin pdftk è un buon modo per esplorare il documento in una forma sempre meno grezza, e il pdftk l'utilità stessa (e la sua fonte GPL) è un ottimo modo per separare i documenti.

Sto cercando di fare più o meno la stessa cosa.Il riferimento PDF è un documento molto difficile da leggere. Questo tutorial è un inizio migliore, penso.

Questo può aiutare a fare un po' di luce:(da pagina 11 di PDF32000.book)

La sintassi del PDF può essere compresa meglio considerandola come composta da quattro parti, come mostrato nella Figura 1:

• Oggetti.Un documento PDF è una struttura dati composta da un piccolo insieme di tipi base di oggetti dati.Sub-Clause 7.2, "Convenzioni lessicali", descrive il set di caratteri utilizzato per scrivere oggetti e altri elementi sintattici.Il paragrafo 7.3, "Oggetti", descrive la sintassi e le proprietà essenziali degli oggetti.Sub-Clause 7.3.8, "Objects", fornisce dettagli completi del tipo di dati più complesso, l'oggetto Stream.

• Struttura dei file.La struttura del file PDF determina come gli oggetti vengono archiviati in un file PDF, come si accede e come vengono aggiornati.Questa struttura è indipendente dalla semantica degli oggetti.Sottoclauso 7.5, "Struttura del file", descrive la struttura del file.Sub-Clause 7.6, "Crittografia", descrive un meccanismo a livello di file per proteggere il contenuto di un documento dall'accesso non autorizzato.

• Struttura del documento.La struttura del documento PDF specifica il modo in cui i tipi di oggetti di base vengono utilizzati per rappresentare i componenti di un documento PDF:pagine, caratteri, annotazioni e così via.Sub-Clause 7.7, "Struttura del documento", descrive la struttura complessiva del documento;Le clausole successive affrontano la semantica dettagliata dei componenti.

• Flussi di contenuto.Un flusso di contenuto PDF contiene una sequenza di istruzioni che descrivono l'aspetto di una pagina o altra entità grafica.Queste istruzioni, sebbene rappresentate anche come oggetti, sono concettualmente distinte dagli oggetti che rappresentano la struttura del documento e sono descritte separatamente.Sub-Clause 7.8, "Stream e risorse di contenuto", discute i flussi di contenuti PDF e le loro risorse associate.

Sembra che la navigazione in un file PDF richieda poco più di uno sforzo passeggero.

Se vuoi analizzare PDF usando Python, dai un'occhiata a PDFMINER.Questa è la migliore libreria per analizzare i file PDF fino ad oggi.

Estrarre il testo dal PDF è un problema difficile perché il PDF ha una struttura orientata al layout.Puoi vedere il documenti e codice sorgente del mio tentativo appena riuscito con CPAN (la mia implementazione è in Perl).La struttura dei dati PDF è molto interessante e ben progettata, ma è più facile da scrivere che da leggere.

Un modo per ottenere alcuni indizi è creare un file PDF costituito da una pagina vuota.Ho CutePDF Writer sul mio computer e ho creato un documento Wordpad vuoto di una pagina.Stampato su un file .pdf e quindi aperto il file .pdf utilizzando Blocco note.

Successivamente, utilizza una copia di questo file ed elimina righe o blocchi di testo che potrebbero interessarti, quindi ricaricalo in Acrobat Reader.Rimarrai sorpreso da quante poche informazioni siano necessarie per creare un documento PDF funzionante di una pagina.

Sto cercando di creare un foglio di calcolo per creare un modulo PDF dal codice.

È necessario il manuale di riferimento PDF per iniziare a leggere i dettagli e la struttura dei file PDF.Suggerisco di iniziare con la versione 1.7.

Su Windows ho utilizzato uno strumento gratuito Analizzatore PDF per vedere la struttura interna dei file PDF.Ciò ti aiuterà nella comprensione durante la lettura del manuale di riferimento.

enter image description here

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top