Pregunta

Para un pequeño proyecto que tengo para analizar los archivos pdf y tomar una parte específica de ellos (una simple cadena de caracteres).Me gustaría usar python para hacer esto y he encontrado varias bibliotecas que son capaces de hacer lo que quiero en algunos aspectos.

Pero ahora, después de algunas investigaciones, me pregunto ¿cuál es la estructura real de un archivo pdf, ¿alguien sabe si hay una especificación o algunas de las explicaciones en línea en cualquier lugar?He encontrado un enlace en adobe pero parece que es un link muerto :(

¿Fue útil?

Solución

Aquí hay un enlace para Adobe como material de referencia

http://www.adobe.com/devnet/pdf/pdf_reference.html

Usted debe saber a pesar de que el PDF es sólo acerca de la presentación, no la estructura.El análisis no será fácil.

Otros consejos

Cuando empecé a trabajar con PDF, me encontré con el Referencia en PDF muy difícil de navegar.Puede ayudar a saber que la visión general de la estructura del archivo se encuentra en la sintaxis, y lo que Adobe llame a la estructura del documento es la estructura del objeto y no de la estructura del archivo.Que también se encuentra en la Sintaxis.La descripción de los operadores está escondido en el Apéndice a - muy útil para la comprensión de lo que está sucediendo en el contenido de los arroyos.Si usted tiene el dolor de trabajar con espacios de color que usted encontrará que se oculta en los Gráficos!Espero que estas indicaciones le ayudarán a encontrar las cosas más rápido que yo.

Si está utilizando windows, pdftron CosEdit te permite navegar por la estructura del objeto de entender.Hay una demo gratuita disponible que permite examinar el archivo pero no lo guarde.

He encontrado el GNU Introducción a PDF para ser útil en la comprensión de la estructura.Incluye un fácil de leer ejemplo de archivo PDF los que describen con todo detalle.

Otros enlaces útiles:

Aquí está la raw referencia de PDF 1.7, y aquí un artículo describir la estructura de un PDF archivo.Si usted usa Vim, el pdftk plugin es una buena manera de explorar el documento en un nunca-para-un poco menos bruto, y el pdftk utilidad en sí (y su fuente GPL) es una gran manera de desentrañar los documentos aparte.

Estoy tratando de hacer casi lo mismo.La referencia en PDF es muy difícil documento para leer. Este tutorial es mejor empezar creo.

Esto puede ayudar a arrojar un poco de luz:(viene de la página 11 de PDF32000.libro)

La sintaxis del PDF es que se entiende mejor teniendo en cuenta como cuatro partes, como se muestra en la Figura 1:

• Los objetos.Un documento PDF es una estructura de datos compuesta a partir de un pequeño conjunto de tipos básicos de objetos de datos.Sub-cláusula 7.2, "Léxico de los Convenios", describe el conjunto de caracteres utilizado para escribir objetos y otros elementos sintácticos.Sub-cláusula 7.3, "Objetos", describe la sintaxis y las propiedades esenciales de los objetos.Sub-cláusula 7.3.8, "los Objetos de Flujo," proporciona detalles completos de las más complejas de tipo de datos, el flujo de objeto.

• Estructura de archivos.El archivo PDF de la estructura determina cómo los objetos se almacenan en un archivo PDF, cómo se acceder a ella, y cómo se actualizan.Esta estructura es independiente de la semántica de los objetos.Sub- cláusula 7.5, "Estructura de Archivos", describe la estructura de archivos.Sub-cláusula 7.6, "Cifrado", describe un nivel de archivo mecanismo para la protección de un documento del contenido del acceso no autorizado.

• La estructura del documento.El documento PDF de la estructura especifica cómo el objeto básico de los tipos utilizados para representar los componentes de un documento PDF:páginas, fuentes, anotaciones, y así sucesivamente.Sub-cláusula 7.7, "La Estructura del documento," describe el global de la estructura del documento;más tarde cláusulas de la dirección detallada la semántica de los componentes.

• El contenido de los arroyos.Un PDF secuencia de contenido contiene una secuencia de instrucciones que describen la aparición de una página o un gráfico de la entidad.Estas instrucciones, mientras que también se representa como objetos, son conceptualmente distintos de los objetos que representan la estructura del documento y se describen por separado.Sub-cláusula 7.8, "el Contenido de los Arroyos y de los Recursos", analiza el contenido del PDF arroyos y sus recursos asociados.

Se parece a navegar por un archivo PDF requerirá un poco más que un paso de esfuerzo.

Si desea analizar PDF usando Python por favor, eche un vistazo a PDFMINER.Esta es la mejor biblioteca para analizar los archivos PDF hasta la fecha.

Didier tener una herramienta para analizar el PDF:

http://didierstevens.com/files/software/pdf-parser_V0_4_3.zip

o aquí:

http://blog.didierstevens.com/programs/pdf-tools/ que enumeró varios relacionados con pdf-herramientas de análisis.

Otra herramienta es aquí:

http://mshahzadlatif.wordpress.com/2011/09/28/view-pdf-structure-using-adobe-acrobat-or-a-free-tool-called-pdfxplorer/

Extraer texto de un PDF es un problema difícil porque el PDF tiene un diseño orientado a la estructura.Usted puede ver la la documentación y el código fuente de mi, apenas intento exitoso en CPAN (mi aplicación es en Perl).El PDF de la estructura de datos es muy fresco y bien diseñado, pero es más fácil de escribir que de leer.

Una forma de obtener algunas pistas es crear un archivo PDF que consta de una página en blanco.He CutePDF Writer en mi equipo, e hizo un espacio en blanco Wordpad documento de una página.Impreso a una .archivo pdf y, a continuación, abre el .archivo pdf con el Bloc de notas.

A continuación, utilice una copia de este archivo y eliminar líneas o bloques de texto que puedan ser de su interés, a continuación, volver a cargar en Acrobat Reader.Usted se sorprendería de la poca información que se necesita para hacer un trabajo de una página del documento PDF.

Estoy tratando de hacer una hoja de cálculo para crear un formulario PDF a partir de un código.

Usted necesita el PDF manual de Referencia para empezar a leer sobre los detalles y la estructura de los archivos PDF.Sugiero comenzar con la versión 1.7.

En windows he utilizado una herramienta gratuita PDF Analizador de para ver la estructura interna de los archivos PDF.Esto ayudará a su comprensión al leer el manual de referencia.

enter image description here

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top