Frage

Was meine Nutzer tun, ist ein PDF-Dokument auf ihrem Computer aus, laden Sie sich auf meine Website, wo ich in ein HTML-Dokument für die Anzeige auf der Website konvertieren. Das Dokument wird in einer Datenbank nach der Konvertierung gespeichert werden.

Was ist der beste Weg, um ein PDF zu HTML?

konvertieren

Ich habe eine Anforderung übergeben worden, wo ein Benutzer eine „Nachricht“ als pdf schaffen würde und es dann zum Server laden würde, wo es in HTML umgewandelt werden und auf der Website.

War es hilfreich?

Lösung

Jede Dokumentenerstellung Software, die Dokumente als PDF speichern können, können sie als HTML-Format speichern. Ich gehe davon aus das Problem ist, dass Ihre Benutzer reichen Dokumente (viele eingebettete Bilder) werden zu schaffen, die in mehreren Dateien führt, und Ihre Anforderungen ergeben sich aus dem Wunsch, diese Dokumente so einfach wie möglich zu machen, das Hochladen an den Benutzer.

Es gibt zahlreiche Umbaupakete, die wahrscheinlich das für Sie tun können, aber wenn Sie reichen Inhalt sprechen, Sie sprechen über Text und Bilder. Diese Bilder müssen irgendwo gespeichert werden und dienten irgendwie, und was auch immer Umwandlungsmethode, die Sie verwenden, benötigen Sie alle Bildquellen zu untersuchen, um sicherzustellen, dass sie auf gültige Stellen auf dem Server verweisen.

Ich möchte einen alternativen Weg vorschlagen, dies zu tun, dass Sie Ihr Team nehmen: Implementieren einer der vielen Blog-APIs für die Veröffentlichung von Inhalten. Es gibt freie und kommerzielle Software-Pakete, die diese APIs verwenden, um Inhalte zu veröffentlichen, direkt zu einer Webseite, wie Windows Live Writer und Microsoft Word. Die Benutzer können einfach ihre Inhalte erstellen und es direkt auf Ihre Website hochgeladen werden, ohne dass es als PDF veröffentlicht zuerst, dann hochladen. So dass der Prozess viel glatter für die Benutzer wird, und Sie erhalten die Beiträge in einer Form, die nicht Sie verbringen Tausende von Dollar erfordert auf die Entwicklung oder Conversion-Code kaufen.

Die beiden häufigsten APIs sind die MetaWeblog API und die Movable Type API . Beide sind sehr einfach und leicht zu implementieren. Ich denke, diese Art und Weise eine viel bessere Alternative wäre, als das, was Sie denken über das Tun.

Andere Tipps

Ich glaube nicht, ein PDF zu einem HTML-String Umwandlung ist unbedingt die beste Idee, vor allem, wenn Sie es zurück, als PDF exportieren mögen. PDF-Dateien enthalten oft binäre Elemente wie Bilder, so können Sie am besten sein, es über eine Codierung, wie Base64 zu ASCII zu konvertieren. So können Sie eine ASCII-Zeichenfolge haben, werden Sie in ein Textfeld in der DB speichern und sie dann heraus konvertieren zurück. Könnten Sie mehr über die Hauptanforderung erweitern?

Meine Empfehlung wäre, es nicht zu tun, dass die Art und Weise, wenn möglich (aber wir alle wissen, was Manager sind wie) so ...

Ich würde empfehlen, dass Sie bleiben weg die PDF / von HTML aus der Umwandlung (weil, wenn Sie eine kommerzielle Lösung finden können es nahezu unmöglich sein wird) und stattdessen tun, wie bereits erwähnt worden ist und speichern Sie es als einen codierten Base64-String oder BLOB oder ein anderes binäres Format in der Datenbank, und dann mit einer Art von PDF-Ansicht Plugin für den Browser.

für den Benutzer anzeigen

Alle dauerte es war eine einfache Google-Suche nach "PDF to HTML": http: // www. gnostice.com/pdf2manyOverview_x.asp . Ich bin sicher, es gibt andere.

So, während es ‚möglich‘, können Sie mit Ihren Vorgesetzten erklären wollen, dass diese Lösung nicht die beste Content-Managements ist.

Warum nicht den iTextSharp die PDF-Inhalt zu lesen? Dann könnten Sie sparen sowohl den binären PDF und den Textinhalt in die Datenbank. Sie könnten dann können Benutzer den Inhalt suchen und die PDF-Download bereit.

Sie sollten in DynamicPDF aussehen. Sie haben einen Konverter (derzeit Beta) heraus zu dienen genau diesem Zweck. Wir haben ihre Produkte mit großem Erfolg eingesetzt (insbesondere für Reporting Services Dumping berichtet direkt an PDF).

Ref: http://www.dynamicpdf.com/

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top