何が良いるHTMLコンバーターのためのRuby on Rails?[定休日]

https://stackoverflow.com/questions/1900423

19-09-2019
|

質問

ようにしている変換programatically PDFめます。これまでにまとめて pdftohtml がユーザーに満足しない。

こちらは僕のものが必要

私が使っているRuby on Railsが、ツールを作Unixいときからョンをインストールして下さい。もちろんの素敵な逸品またはプラグインが完璧でした。
内にあります。でオープンソース
で必要な対応画像
思いがあった場合はオプションを捨てる画像が必要な場合
が必要で安定した
このニーズに戻htmlとレイアウト内のpdf（たって pdftohtml その結果がないとのことで良い為使用勝手の良いオフィスは多くの場合)

解決

こちらはカップルに代替pdftohtml/xpdf:

Adobeからの無料オンラインでPDFをHTMLまたはテキスト変換サービス.かりの文書がいると疑うこのオプションだと最も効果が得られます。
があり pdfリーダー rubyの逸品だと思いますがアクセスの炉内構造物のPDFファイルです。このような一部の開発-拡張するものを使用できることを解析したPDFファイルを生ん。このようにわかればどんなファイルをユーザーの転換の時代を先どう作業標準化されるものとする。
る場合がありまオプションをご利用の場合 ghostscript (逸品こちら)に変換し、PDFを他の形式です。ナビゲーションを生成できる画像（png、jpgなど)からPDFファイルで入手できるかもしれませんが、最高の運転換でPostScriptファイルからがなされているとは聞いているzillion"PostScriptに"挿入形式はこちら】"コンバーター

他のヒント

HTMLへの変換PDFの場合、pdf2htmlEXはかなり良いツール（すべての例/サンプルを見ている）のように思えます

https://github.com/coolwanglu/pdf2htmlEXする

他のすべてが失敗した場合、あなたは（イメージ魔術または類似を使用して）イメージに各ページをめくると、画像を表示することができ、ラ<のhref =「http://books.google.com」のrel = "nofollowをnoreferrer 「> http://books.google.com のか、 http://safari.oreilly.com 。これは、帯域幅の豚だろうが、あなたは元に忠実になるだろう。

私は、入力としてPDFを取っ関わる研究プロジェクトに取り組んでしばらく過ごしました。何を求めていることは本当に困難な作業であり、そして何のソフトウェアは完全にそれを行いません。 HTMLは、いくつかの構造を有しているのに対し、<p>のように、PDFは純粋にプレゼンテーションです。 HTML文書は、「これは段落です。これはイメージです。」、と言うだろうプレゼンテーションは、それとは解釈されます。 PDF文書は、本質的に言うだろう：「この文字は、位置Xでレンダリングする必要があり、Yこの次のchracter位置でレンダリングされます...。」などだから、それさえも外の段落を構築することは難しいことができます。

。

私はJavaで働いていたので、私は、私が使用される特定のプログラムはあなたに非常に使用されるであろうとは思いません。また、私はいくつかのPDFジェネレータは小さな画像に画像をスプライスし、隣同士にそれらを表示することを思い出す - 。それは巨大な苦痛だった。

あなたが別の形式での作業、またはあなたの期待を下げることができることをすべての可能な方法はありますか？あなたはウェインが示唆画像のことを行うことができますが、それはありません。の本当にのHTML（と、それはアクセスできないのです - であるあなたの懸念？）。それはちょうどあなたが一緒に暮らすものにしなければならない場合があります。

のpopplerかのxpdfを使用してみてください。しかし、それはいくつかの魔法を必要と結合です。

//www.pdf-to-：

あなたは HTTPを試すことができますhtml-word.com/pdf-to-htmlするこれは本当に良い作品。私はその機能を確認した後、それのために支払いました。あなたはそれをテストするためにフリーライドを持っています。さもないとのAcrobat Proを使用して、CSSとHTMLとして保存します。それはあまりにも動作します。しかし、それはたくさんのファイルをどうする**の痛みです。

これを試すことができます。私はpdftohtmlユーティリティを中心にルビーをラップで最初のカットを撮影しました。ここに利用できる宝石： http://gemcutter.org/gems/pdftohtmlrする

、私はGoogle AppsのドキュメントAPIやScribdのAPIのいずれかを使用して検討している（今の私のお気に入り）をしばらくの間pdftohtmlを使用してHTMLバージョンの表示結果に不満された後、

http://www.scribd.com/developers/apiする

最後に、私はおそらく、単純にPDFファイルのテキストコンテンツを抽出するためにpdftohtmlを使用しますそして、ScribdのAPIは、ユーザーのページに元のファイルを表示します。

私はちょうど（poyconverterまたはjodconverter経由）オープンオフィスヘッドレスで文書を変換するためにルビーの宝石をリリースしました。それはまた、PDFファイルからテキストDANS画像を抽出するために、他のいくつかのlibrairies（pdftoolsとはnetpbm）を統合します。

あなたがここでそれを見つけることができます https://github.com/itkin/proselytism.gitする

独自のコンバータを追加し、私にいくつかの問題を報告すること自由に感じ。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow