Qu'est-ce qu'un bon PDF convertisseur HTML pour Ruby on Rails? [fermé]

https://stackoverflow.com/questions/1900423

19-09-2019
|

Question

Je suis en train de convertir PDF en HTML programatically. Jusqu'à présent, je me sers pdftohtml mais nos utilisateurs ne sont pas satisfaits des résultats.

Voici ce que je dois:

J'utilise Ruby on Rails, mais un outil de travail sur Unix travaillerais que je peux l'appeler depuis la ligne de commande. Mais bien sûr, un petit bijou gentil ou plug-in serait parfait.
Je préfère que ce soit open source
Il doit être en mesure d'images poignée
Ce serait bien s'il y avait une option pour supprimer des images si nécessaire
Il doit être stable
Il doit revenir HTML avec une mise en page proche du pdf d'origine (je l'ai essayé pdftohtml et le résultat est pas bon dans beaucoup de cas)

La solution

Voici quelques alternatives à plus pdftohtml / xpdf:

Adobe a un PDF gratuit en ligne HTML ou texte service de conversion de rel="noreferrer">. Il peut prendre une minute ou deux pour obtenir le document en arrière, mais je soupçonne que cette option vous donner les meilleurs résultats.

Il y a un pdf lecteur bijou Ruby qui vous donnera accès aux entrailles de le fichier PDF. Cela impliquerait un certain développement / l'extension de votre part, mais vous pouvez l'utiliser pour analyser le fichier PDF et HTML générer belle apparence. Cela pourrait être plus facile que cela puisse paraître, si vous savez quel type de fichiers que vos utilisateurs convertissons en avance sur les temps (comme si elles travaillent avec des formulaires normalisés).

Vous pouvez avoir plus d'options si vous utilisez Ghostscript ( petit bijou trouvée ici) pour convertir le fichier PDF vers un autre format en premier. Le bijou peut générer des images (png, jpg, etc.) à partir d'un fichier PDF, mais vous pourriez avoir la meilleure chance convertir en un fichier PostScript car il semble y avoir un zillion « [le format d'insertion ici] PostScript-to » convertisseurs.

Autres conseils

Pour PDF à la conversion HTML, pdf2htmlEX semble être un très bon outil (regarder tous les exemples / échantillons):

https://github.com/coolwanglu/pdf2htmlEX

Si tout le reste échoue, vous pourriez transformer chaque page en une image (en utilisant Magick d'image ou similaire) et afficher les images, à la http://safari.oreilly.com . Ce serait un porc de bande passante, mais vous obtiendrez la fidélité à l'original.

J'ai passé un certain temps à travailler sur un projet de recherche qui consistait à prendre des fichiers PDF en entrée. Qu'est-ce que vous demandez est juste une tâche très difficile, et aucun logiciel ne le fera parfaitement. Alors que HTML a une structure, comme <p>, PDF est purement présentation. Un document HTML dira: « Ceci est un paragraphe. Ceci est une image. » et la présentation est interprétée de cela. Un document PDF sera essentiellement dire:. «Ce caractère doit être rendu à la position X, Y la prochaine chracter sera rendu à la position ... », etc. Ainsi, même la construction de paragraphes sur qui peut être difficile

Je travaillais en Java, donc je ne pense pas que le programme spécifique je sera d'une grande utilité pour vous. En outre, je me souviens que certains générateurs de PDF épissures une image en images plus petites et les afficher à côté de l'autre -. Qui était une douleur énorme

Est-il possible possible que vous pouvez travailler avec un format différent, ou réduire vos attentes? Vous pourriez faire la chose que l'image Wayne suggère, mais ce n'est pas vraiment HTML (et ce n'est pas accessible - est-ce un problème pour vous?). Cela aurait pu juste être quelque chose que vous vivez avec.

Utiliser poppler ou xpdf. Mais il est besoin d'un peu de magie et obligatoire.

vous pouvez essayer http: //www.pdf-to- html-word.com/pdf-to-html qui fonctionne vraiment bien. Je l'ai payé après avoir vérifié sa fonctionnalité. Vous avez un tour gratuit pour le tester. Ou bien utiliser Acrobat Pro et Enregistrer au format HTML avec CSS. Cela fonctionne aussi. Mais il est une douleur dans le un ** à voir avec un tas de fichiers.

Peut essayer. J'ai pris une première coupe à l'emballage Ruby autour de l'utilitaire pdftohtml. Gem ici: http://gemcutter.org/gems/pdftohtmlr

Après avoir utilisé pdftohtml pendant un certain temps et être satisfait des résultats d'affichage de la version html, j'envisage d'utiliser soit des applications Google API document ou l'API Scribd (mon préféré en ce moment)

http://www.scribd.com/developers/api

En fin de compte, je vais probablement utiliser pdftohtml pour extraire simplement le contenu du texte du fichier pdf et l'api Scribd pour afficher le fichier d'origine sur la page d'utilisateur

Je viens de publier un petit bijou de rubis pour convertir des documents avec sans tête de bureau ouvert (via poyconverter ou jodconverter). il intègre également d'autres quelques librairies (PDFTools et netpbm) pour extraire le texte des images Dans des fichiers PDF.

Vous trouverez ici https://github.com/itkin/proselytism.git

Vous pouvez ajouter vos propres convertisseurs et me signaler quelques problèmes

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow