Question

Ce que mes utilisateurs vont faire, c'est sélectionner un document PDF sur leur machine, le télécharger sur mon site Web, où je convertirai un document HTML pour l'afficher sur le site Web. Le document sera stocké dans une base de données après la conversion.

Quel est le meilleur moyen de convertir un fichier PDF en HTML?

On m'a confié une exigence selon laquelle un utilisateur créerait une "nouvelle". histoire au format PDF, puis la télécharger sur le serveur, où elle sera convertie au format HTML et affichée sur le site Web.

Était-ce utile?

La solution

Tout logiciel de création de document pouvant enregistrer des documents au format PDF peut les enregistrer au format HTML. Je suppose que le problème est que vos utilisateurs vont créer des documents riches (beaucoup d’images incorporées), ce qui donne plusieurs fichiers, et vos exigences découlent du désir de simplifier au maximum le téléchargement de ces documents pour l’utilisateur.

De nombreux packages de conversion peuvent probablement le faire pour vous. Toutefois, lorsque vous parlez de contenu enrichi, vous parlez de texte plus d'images. Ces images doivent être stockées quelque part et servies d’une manière ou d’une autre, et quelle que soit la méthode de conversion utilisée, vous devrez examiner toutes les sources d’images pour vous assurer qu’elles correspondent à des emplacements valides de votre serveur.

J'aimerais suggérer une autre façon de procéder que vous pouvez proposer à votre équipe: implémentez l'une des nombreuses API de blog pour la publication de contenu. Certains progiciels gratuits et commerciaux utilisent ces API pour publier du contenu directement sur un site Web, tels que Windows Live Writer et Microsoft Word. Vos utilisateurs peuvent simplement créer leur contenu et le télécharger directement sur votre site Web sans avoir à le publier au format PDF avant de le télécharger. Ainsi, le processus devient beaucoup plus fluide pour vos utilisateurs et vous obtenez les publications sous une forme qui ne nécessite pas de dépenser des milliers de dollars pour développer ou acheter un code de conversion.

Les deux API les plus courantes sont l'API MetaWeblog et API Movable Type . Les deux sont très simples et faciles à mettre en œuvre. Je pense que ce serait une alternative BEAUCOUP mieux que ce que vous envisagez de faire.

Autres conseils

Je ne pense pas que la conversion d'un fichier PDF en une chaîne HTML soit nécessairement la meilleure idée, surtout si vous souhaitez l'exporter au format PDF. Les fichiers PDF contiennent souvent des éléments binaires tels que des images, il est donc préférable de les convertir en ASCII via un codage, tel que Base64. De cette manière, vous aurez une chaîne ASCII que vous pourrez sauvegarder dans un champ de texte de la base de données, puis la reconvertir. Pourriez-vous développer davantage sur l'exigence principale?

Ma recommandation serait de ne pas le faire de cette façon SI POSSIBLE (mais nous savons tous ce que les gestionnaires sont comme) afin ...

Je vous recommande de ne pas convertir le PDF en HTML (car à moins que vous ne trouviez une solution commerciale, il sera presque impossible), mais de faire ce qui a déjà été mentionné et de le stocker sous forme de chaîne Base64 codée. , ou BLOB ou un autre format binaire dans la base de données, puis affichez-le à l'utilisateur avec une sorte de plug-in d'affichage PDF pour le navigateur.

Il suffisait d'une simple recherche sur Google pour "PDF en HTML": http: // www. .gnostice.com / pdf2manyOverview_x.asp . Je suis sûr qu'il y en a d'autres.

Ainsi, bien que ce soit "possible", vous voudrez peut-être expliquer à votre responsable que cette solution de gestion de contenu n'est pas la meilleure.

Pourquoi ne pas utiliser iTextSharp pour lire le contenu au format PDF? Ensuite, vous pouvez enregistrer le fichier PDF binaire et le contenu du texte dans la base de données. Vous pouvez ensuite laisser les utilisateurs rechercher le contenu et télécharger le fichier PDF.

Vous devriez regarder dans DynamicPDF. Ils ont un convertisseur (actuellement en version bêta) pour servir exactement cet objectif. Nous avons utilisé leurs produits avec beaucoup de succès (en particulier pour le dumping, Reporting Services rapporte directement au format PDF).

Réf.: http://www.dynamicpdf.com/

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top