Question

Je suis en train de convertir PDF en HTML programatically. Jusqu'à présent, je me sers pdftohtml mais nos utilisateurs ne sont pas satisfaits des résultats.

Voici ce que je dois:

  • J'utilise Ruby on Rails, mais un outil de travail sur Unix travaillerais que je peux l'appeler depuis la ligne de commande. Mais bien sûr, un petit bijou gentil ou plug-in serait parfait.

  • Je préfère que ce soit open source

  • Il doit être en mesure d'images poignée

  • Ce serait bien s'il y avait une option pour supprimer des images si nécessaire

  • Il doit être stable

  • Il doit revenir HTML avec une mise en page proche du pdf d'origine (je l'ai essayé pdftohtml et le résultat est pas bon dans beaucoup de cas)

Autres conseils

Pour PDF à la conversion HTML, pdf2htmlEX semble être un très bon outil (regarder tous les exemples / échantillons):

https://github.com/coolwanglu/pdf2htmlEX

Si tout le reste échoue, vous pourriez transformer chaque page en une image (en utilisant Magick d'image ou similaire) et afficher les images, à la http://safari.oreilly.com . Ce serait un porc de bande passante, mais vous obtiendrez la fidélité à l'original.

J'ai passé un certain temps à travailler sur un projet de recherche qui consistait à prendre des fichiers PDF en entrée. Qu'est-ce que vous demandez est juste une tâche très difficile, et aucun logiciel ne le fera parfaitement. Alors que HTML a une structure, comme <p>, PDF est purement présentation. Un document HTML dira: « Ceci est un paragraphe. Ceci est une image. » et la présentation est interprétée de cela. Un document PDF sera essentiellement dire:. «Ce caractère doit être rendu à la position X, Y la prochaine chracter sera rendu à la position ... », etc. Ainsi, même la construction de paragraphes sur qui peut être difficile

Je travaillais en Java, donc je ne pense pas que le programme spécifique je sera d'une grande utilité pour vous. En outre, je me souviens que certains générateurs de PDF épissures une image en images plus petites et les afficher à côté de l'autre -. Qui était une douleur énorme

Est-il possible possible que vous pouvez travailler avec un format différent, ou réduire vos attentes? Vous pourriez faire la chose que l'image Wayne suggère, mais ce n'est pas vraiment HTML (et ce n'est pas accessible - est-ce un problème pour vous?). Cela aurait pu juste être quelque chose que vous vivez avec.

Utiliser poppler ou xpdf. Mais il est besoin d'un peu de magie et obligatoire.

vous pouvez essayer http: //www.pdf-to- html-word.com/pdf-to-html qui fonctionne vraiment bien. Je l'ai payé après avoir vérifié sa fonctionnalité. Vous avez un tour gratuit pour le tester. Ou bien utiliser Acrobat Pro et Enregistrer au format HTML avec CSS. Cela fonctionne aussi. Mais il est une douleur dans le un ** à voir avec un tas de fichiers.

Peut essayer. J'ai pris une première coupe à l'emballage Ruby autour de l'utilitaire pdftohtml. Gem ici: http://gemcutter.org/gems/pdftohtmlr

Après avoir utilisé pdftohtml pendant un certain temps et être satisfait des résultats d'affichage de la version html, j'envisage d'utiliser soit des applications Google API document ou l'API Scribd (mon préféré en ce moment)

http://www.scribd.com/developers/api

En fin de compte, je vais probablement utiliser pdftohtml pour extraire simplement le contenu du texte du fichier pdf et l'api Scribd pour afficher le fichier d'origine sur la page d'utilisateur

Je viens de publier un petit bijou de rubis pour convertir des documents avec sans tête de bureau ouvert (via poyconverter ou jodconverter). il intègre également d'autres quelques librairies (PDFTools et netpbm) pour extraire le texte des images Dans des fichiers PDF.

Vous trouverez ici https://github.com/itkin/proselytism.git

Vous pouvez ajouter vos propres convertisseurs et me signaler quelques problèmes

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top