質問

ユーザーが行うことは、自分のマシンでPDFドキュメントを選択し、それをWebサイトにアップロードすることです。そこで、Webサイトで表示するためにHTMLドキュメントに変換します。ドキュメントは、変換後にデータベースに保存されます。

PDFをHTMLに変換する最良の方法は何ですか?

ユーザーが「ニュース」を作成するための要件を手渡しました。 pdfとしてのストーリーをサーバーにアップロードし、HTMLに変換してウェブサイトに表示します。

役に立ちましたか?

解決

ドキュメントをPDFとして保存できるドキュメント作成ソフトウェアは、HTMLとして保存できます。問題は、ユーザーがリッチドキュメント(多くの埋め込み画像)を作成し、その結果複数のファイルが作成されることであり、要件はこれらのドキュメントをユーザーにできるだけ簡単にアップロードしたいという願望に由来すると思われます。

これを行うことができる変換パッケージは多数ありますが、リッチコンテンツについてはテキストと画像について説明しています。これらの画像はどこかに保存され、何らかの方法で提供される必要があります。どの変換方法を使用する場合でも、すべての画像ソースを調べて、サーバー上の有効な場所を指していることを確認する必要があります。

これを行う別の方法を提案します。これは、チームに持ち込むことができます。コンテンツを公開するための多くのブログAPIの1つを実装します。これらのAPIを使用して、Windows Live WriterやMicrosoft WordなどのコンテンツをWebサイトに直接公開する無料の商用ソフトウェアパッケージがあります。ユーザーは、コンテンツを作成してWebサイトに直接アップロードするだけで、最初にPDFとして公開してからアップロードする必要はありません。そのため、ユーザーにとってプロセスはよりスムーズになり、変換コードの開発や購入に数千ドルを費やす必要のない形式で投稿を取得できます。

最も一般的な2つのAPIは、 MetaWeblog API Movable Type API 。どちらも非常にシンプルで実装が簡単です。この方法は、あなたが考えていることよりもはるかに優れた代替手段になると思います。

他のヒント

PDFをHTML文字列に変換することは、特にPDFとしてエクスポートして戻す場合、必ずしも最良のアイデアだとは思いません。 PDFファイルには多くの場合、画像などのバイナリ要素が含まれているため、Base64などのエンコーディングを介してASCIIに変換することをお勧めします。そうすれば、DBのテキストフィールドに保存してから変換して戻すことができるASCII文字列が得られます。主な要件についてさらに詳しく教えてください。

可能な場合はそのようにしないことをお勧めします(ただし、マネージャーがどんな人かはわかっています)

PDFからHTMLへ/から変換することは避けてください(市販のソリューションを見つけることができない場合はほとんど不可能です)。 、またはBLOBまたはデータベース内の他のバイナリ形式を使用し、ブラウザ用の何らかのPDFビュープラグインでユーザーに表示します。

必要なのは、「PDF to HTML」の簡単なGoogle検索だけです: http:// www .gnostice.com / pdf2manyOverview_x.asp 。他にもあるはずです。

「可能」ではありますが、これが最高のコンテンツ管理ソリューションではないことをマネージャーに説明したい場合があります。

iTextSharp を使用してPDFコンテンツを読み取らないのはなぜですか。その後、バイナリPDFとテキストコンテンツの両方をデータベースに保存できます。その後、ユーザーにコンテンツの検索とPDFのダウンロードを許可できます。

DynamicPDFを調べる必要があります。まさにこの目的を果たすためのコンバーター(現在はベータ版)があります。私たちは彼らの製品を大成功で使用しました(特にReporting Servicesレポートを直接PDFにダンプするために)。

参照: http://www.dynamicpdf.com/

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top