質問

LaTeXからPDFを作成する方法を知っています。以前に作成したPDFからLaTeXコードを抽出する方法はありますか?誰かが私にPDFを送ってくれて、フォーマットが気に入ったらどうでしょう。 LaTeXをそこから抽出できますか?

役に立ちましたか?

解決

LaTeXには、PDFへの1対1の変換がありません。あなたの最初の質問に関して、私はそのような変換が技術的に可能であると信じていますが、そうするためのアプリケーションがまだ存在するとは思いません。アセンブラを逆コンパイルして高レベル言語に戻す方法と同様に、おそらくそれを行う方法があります。ただし、pdfには、AutoCADの図面、JPEGグラフィック、フォントファイル、フォーム、デジタル署名など、あらゆる種類のデータを含めることができます。LaTeXは、これらが何であるかを把握していません。したがって、2番目の質問に対する答えは「いいえ」です。PDF文書から同等のLaTeXを抽出する方法はありません。

他のヒント

OCRのようなPDFファイルを読み取り、ラテックスコードを再作成しようとするツールがあります。 ほぼ完璧で、" Infty Reader" と呼ばれています! ラテックスは非常に拡張性があるため、適切なフォーマットがすべて揃っているとは思わない。

ドキュメントのソースをPDFファイルに埋め込む場合にのみ可能です。これを行うには、 attachfile パッケージを参照してください。

ショートバージョン:いいえ。

ロングバージョン:逆コンパイルによく似ています:技術的には可能ですが、多くの推測とヒューリスティックが必要になります。

PDFの内部構造についてはよく知りませんが、LaTeXのようにフォーマットを定義してヘッダーなどに適用する代わりに、フォント/サイズ/位置を直接設定する可能性があります。

pdftohtmlとgnuhtml2latexを使用して、PDFをHTMLに、HTMLをTEXに変換できます。

実際には、2ステップでPDFからLaTeXへの変換を行っています。結果はまだ「ハンバーガーから牛を作る」ようなものですが、いくつかのクリーンアップスクリプトと組み合わせると、結果はかなりまともです。

ブログ記事" 初歩的なPDF LinuxでのLaTeX変換" GlobalBlindSpotには、.pdfを.texファイルに変換し、それを.pdfファイルに再度変換するサンプルBashスクリプトがあります。

関連する質問に関する私の回答を参照してください( DVIからtex?

増幅するには-文字を読む順序にする必要はありません(sdrawkcab sdaer txetの一部(および座標に依存する)PDFを見つけました。フォントメトリックに依存するため、再構築が非常に困難です。 。ぞっとするようなASCII86プロトコルを使用できます。

pdfファイルからデータマイニングするための最良の方法(その複雑な形式のため)は、Adobeイラストレーターで開くことです。 次に、pdfファイルをsvgファイルに変換し、svgパーサーライブラリを使用して、トリッキーなコードを自分で記述します。

1つの効率的なsvgパーサーライブラリは、 batik

です。

(Linuxの場合、pdfからsvgへの変換はかなり複雑です: calcmaster.net/personal_projects/pdf2svg /)

PS 私はあなたの質問のあなたの第二の部分の解決策を見つけるために多くのことを試みてきました しかし、「Visualizing Data、Ben Fry、O’ Reilly」などの本で理解しました。 そのPDF、特にAdobe pdfは解析が複雑なので、代わりにsvgパーサーライブラリを使用します。

InkscapeはPDFをインポートし、「PSTricksマクロを含むLaTeX」として保存できます。これは本質的に、PostScriptをLaTeXソースに埋め込むことで機能します。その価値よりも厄介な問題であり、生成されたLatexソースは、PDFとして再度出力する前に前処理する必要があります。

とにかく、LaTeXコンパイラーへの仮想的なPDFを使用しても、せいぜい各文字または単語の位置とサイズが個別に指定されたものが得られるでしょう-私が推測しているのはあなたが望むものの反対です分母は、水平線の下の数ではなく、分数の半分になります。

PDFファイルのインポートを含む texmacs で動作する可能性があります。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top