Frage

Ich versuche, programmatisch konvertieren von PDF in HTML.Bisher habe ich mit pdftohtml aber unsere Benutzer sind nicht zufrieden mit den Ergebnissen.

Hier ist, was ich brauche :

  • Ich bin mit Ruby, Ruby on Rails, aber jedes Werkzeug zu arbeiten auf Unix funktionieren würde, wie ich kann, rufen Sie es von der Kommandozeile.Aber natürlich ist ein schönes Schmuckstück oder ein plugin wäre perfekt.

  • Ich würde es vorziehen, es zu open source

  • Es muss in der Lage sein Griff Bilder

  • Es wäre schön, wenn es eine option zum verwerfen von Bildern, wenn nötig

  • Es muss stabil sein

  • Es zurückkehren muss, html mit layout in der Nähe der ursprünglichen pdf-Datei (ich habe versucht pdftohtml und das Ergebnis ist nicht gut, in einer Menge von Fällen)

War es hilfreich?

Lösung

Hier sind ein paar mehr Alternativen zu pdftohtml / xpdf:

  • Adobe hat eine kostenlose Online-PDF zu HTML oder Text Konvertierungsdienst . Es könnte eine oder zwei Minuten dauern, das Dokument zurück zu bekommen, aber ich würde vermuten, dass diese Option, um die besten Ergebnisse geben würde.
  • Es ist ein pdf-Leser Rubin Juwel, das Sie auf die Interna Zugang geben von die PDF-Datei. Dies würde eine gewisse Entwicklung / Erweiterung auf Ihrer Seite beteiligen, aber man könnte dies die PDF-Datei zu analysieren verwenden und gut aussehende HTML zu generieren. Dies könnte einfacher sein, als es sich anhört, wenn Sie wissen, welche Art von Dateien Ihre Benutzer konvertieren vor Zeiten (wie wenn sie mit standardisierten Formen arbeiten).
  • Sie können mehr Optionen haben, wenn Sie ghost ( gem hier) zuerst das PDF in ein anderes Format zu konvertieren. Der Edelstein kann Bilder (png, jpg, etc.) aus einer PDF-Datei erzeugen, aber Sie könnten das beste Glück haben sie in eine Postscript-Datei umzuwandeln, da scheint es eine Unmenge „Postscript-to [insert Format hier]“ sein Konvertern.

Andere Tipps

Für PDF zu HTML-Konvertierung, pdf2htmlEX scheint wie ein ziemlich gutes Werkzeug (mit Blick auf alle Beispiele / samples):

https://github.com/coolwanglu/pdf2htmlEX

Wenn alle Stricke reißen, können Sie jede Seite in ein Bild verwandeln konnte (unter Verwendung von Image Magick oder ähnlich) und die Bilder anzuzeigen, a la http://safari.oreilly.com . Es wäre eine Bandbreite Schwein sein, aber man würde Treue zum Original erhalten.

Ich verbrachte eine Weile an einem Forschungsprojekt arbeiten die beteiligten Mitnahmen PDFs als Eingabe. Was Sie für Fragen ist nur eine wirklich schwierige Aufgabe, und keine Software wird es perfekt machen. Während HTML eine gewisse Struktur, wie <p> hat, ist PDF rein Präsentations. Ein HTML-Dokument wird sagen: „Dies ist ein Absatz. Dies ist ein Bild.“ und die Präsentation wird von dem interpretiert. Ein PDF-Dokument wird im Wesentlichen sagen: „. Dieses Zeichen sollte an der Position X, Y wiedergegeben wird dieser nächste chracter wird an der Position wiedergegeben werden ...“ etc. So auch Absätze aus, dass die Konstruktion kann hart sein,

Ich arbeite in Java, so dass ich das spezifischen Programm glaube nicht, dass ich verwendet werden Sie von großem Nutzen sein. Auch erinnere ich mich, dass einige PDF-Generatoren splice ein Bild in kleinere Bilder und zeigt sie nebeneinander -., Die ein großer Schmerz war

Gibt es eine Möglichkeit, dass Sie mit einem anderen Format arbeiten können, oder Ihre Erwartungen senken? Sie könnten das Bild etwas tun, dass Wayne schlägt vor, aber es ist dann nicht wirklich HTML (und es ist nicht zugänglich - ist das ein Problem für Sie?). Das könnte nur etwas, das man mit leben muß sein.

Versuchen Verwendung poppler oder xpdf. Aber es das Bedürfnis etwas Magie und bindend.

Sie können versuchen, http: //www.pdf-to- html-word.com/pdf-to-html das funktioniert wirklich gut. Ich zahlte für sie nach ihrer Funktionalität zu überprüfen. Sie haben eine freie Fahrt zu testen. Oder aber die Verwendung von Acrobat Pro und Speichern als HTML mit CSS. Das funktioniert auch. Aber es ist ein Schmerz in dem a ** mit einem Bündel von Dateien zu tun.

Kann man das versuchen. Ich habe einen ersten Schnitt bei Einwickeln Rubin um das pdftohtml Dienstprogramm genommen. Gem finden Sie hier: http://gemcutter.org/gems/pdftohtmlr

Nach der Verwendung pdftohtml für einige Zeit und ist unzufrieden mit die Ergebnisse anzeigen des html-version, ich überlege mir, entweder mithilfe des google-apps-Dokument-API oder der scribd-API (mein Favorit im Moment)

http://www.scribd.com/developers/api

Am Ende werde ich wahrscheinlich verwenden pdftohtml zu einfach entpacken Sie den Inhalt der pdf-Datei und der scribd-api, um die ursprüngliche Datei auf der Benutzer-Seite

Ich habe gerade ein Ruby Gem konvertieren Dokumente mit offenem Büro ohne Kopf (via poyconverter oder JODConverter) freigegeben. es integriert auch andere wenige librairies (pdftools und netpbm) Text dans Bilder aus PDF-Dateien zu extrahieren.

Sie können es hier finden https://github.com/itkin/proselytism.git

Fühlen Sie sich frei, Ihren eigenen Konverter zu addieren und berichtet mir einige Probleme

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top