Pregunta

Quiero ser capaz de leer el contenido de archivos PDF. Necesito hacer eso con C en Linux.

Cuanto más cerca que puedo llegar a esta era aquí pero Haru pensar sólo puede crear PDF y no es capaz de leerlos (100% seguro).

PS: Yo sólo necesito el texto de los archivos pdf

¿Fue útil?

Solución

libpoppler . Nunca he usado que funcione la extracción de texto, simplemente consultar atributos PDF. Es bastante fácil de usar.

Otros consejos

¿Qué tan bien lo que necesita para analizar ellos? Sólo las cadenas de extracción deben ser relativamente fácil, la representación totalmente exacta es difícil. Echar un vistazo a la fuente de evince o Ghostscript?

Esto es para C ++, pero podría ser un buen punto de partida para comprender la estructura PDF http: //www.codeproject.com/KB/cpp/ExtractPDFText.aspx (lo siento enlace mal antes)

Otra posible, aunque nunca he utilizado es VersyPDF. Afirma que le permite editar archivos PDF ... http: //versypdf.sybrex-systems- ltd.qarchive.org/

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top