Pregunta

Estoy intentando convertir PDF a HTML mediante programación.Hasta ahora he estado usando pdf a html pero nuestros usuarios no están contentos con los resultados.

Esto es lo que necesito:

  • Estoy usando Ruby on Rails, pero cualquier herramienta que funcione en Unix funcionaría, ya que puedo llamarla desde la línea de comandos.Pero, por supuesto, una buena joya o complemento sería perfecto.

  • Preferiría que fuera de código abierto.

  • Necesita poder manejar imágenes.

  • Sería bueno si hubiera una opción para descartar imágenes si fuera necesario.

  • Tiene que ser estable

  • Necesita devolver html con un diseño cercano al pdf original (lo he intentado pdf a html y el resultado no es tan bueno en muchos casos)

¿Fue útil?

Solución

Aquí hay un par más alternativas para pdftohtml / xpdf:

  • Adobe tiene un PDF en línea gratis a HTML o texto servicio de conversión . Puede ser que tome un par de minutos para obtener el documento de nuevo, pero yo sospecharía que esta opción le dará los mejores resultados.
  • href="http://github.com/yob/pdf-reader/" pdf-reader gema de rubíes que le dará acceso a las partes internas de el archivo PDF. Esto implicaría un cierto desarrollo / extensión de su parte, pero se puede usar esto para analizar el archivo PDF y generar HTML de aspecto agradable. Esto podría ser más fácil de lo que parece si se sabe qué tipo de archivo que los usuarios se están convirtiendo por delante de los tiempos (como si están trabajando con las formas estandarizadas).
  • Usted puede tener más opciones si utiliza ghostscript ( joya encontrar aquí) para convertir el PDF a otro formato primero. La gema puede generar imágenes (PNG, JPG, etc) de un archivo PDF, pero es posible que tenga la mejor suerte para convertirlo en un archivo PostScript ya que parece ser un trillón "PostScript-carbono [formato aquí]" convertidores.

Otros consejos

Para conversión de PDF a HTML, pdf2htmlEX parece una muy buena herramienta (mirando todos los ejemplos / muestras):

https://github.com/coolwanglu/pdf2htmlEX

Si todo lo demás falla, usted podría dar vuelta cada página en una imagen (utilizando Imagemagick o similar) y mostrar las imágenes, a la o href="http://safari.oreilly.com" rel="nofollow noreferrer"> http://safari.oreilly.com . Sería un cerdo de ancho de banda, pero se obtendría fidelidad al original.

Pasé un tiempo trabajando en un proyecto de investigación que implicaba tomar archivos PDF como entrada.Lo que estás pidiendo es una tarea realmente difícil y ningún software lo hará a la perfección.Mientras que HTML tiene cierta estructura, como <p>, El PDF es puramente presentativo.Un documento HTML dirá: "este es un párrafo.Esta es una imagen." y la presentación se interpreta a partir de eso.Un documento PDF esencialmente dirá:"Este carácter debe representarse en la posición X,Y.el siguiente carácter se representará en la posición...", etc.Así que incluso construir párrafos a partir de eso puede resultar difícil.

Estaba trabajando en Java, así que no creo que el programa específico que utilicé te sea de mucha utilidad.Además, recuerdo que algunos generadores de PDF unen una imagen en imágenes más pequeñas y las muestran una al lado de la otra; eso fue una gran molestia.

¿Existe alguna forma posible de que puedas trabajar con un formato diferente o reducir tus expectativas?Podrías hacer la imagen que sugiere Wayne, pero entonces no es así. en realidad HTML (y no es accesible, ¿eso le preocupa?).Quizás tenga que ser algo con lo que vivas.

Trate uso poppler o xpdf. Pero es necesario un poco de magia y vinculante.

http: //www.pdf-to- html-word.com/pdf-to-html que funciona muy bien. Que pagó por ella después de comprobar su funcionalidad. Usted tiene un viaje gratis para probarlo. O bien utilizar Acrobat Pro y Guardar como HTML con CSS. Eso funciona también. Pero es un dolor en el ** que ver con un montón de archivos.

Puede probar esto. Me he tomado un primer corte en Rubí envolver alrededor de la utilidad pdftohtml. Gema disponible aquí: http://gemcutter.org/gems/pdftohtmlr

Después de usar pdftohtml durante algún tiempo y no estar satisfecho con los resultados de visualización de la versión html, estoy considerando utilizando Google documento de aplicaciones API o la API Scribd (mi favorita en este momento)

http://www.scribd.com/developers/api

Al final, probablemente a utilizar pdftohtml simplemente extraer el contenido del texto del archivo PDF y la API Scribd para visualizar el archivo original en la página de usuario

He acaba de lanzar una joya de rubí para convertir documentos con oficina abierta sin cabeza (a través de poyconverter o JODConverter). También integra otras pocas Librairies (PDFTools y netpbm) para extraer el texto dans imágenes de archivos PDF.

Puede encontrar aquí https://github.com/itkin/proselytism.git

No dude en añadir sus propios convertidores y me reportar algunos problemas

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top