texからテキストを抽出し、ラテックスタグを削除します

https://stackoverflow.com/questions/829408

latex

06-07-2019
|

質問

\ section {...}や\ newpageなどのラテックスタグなしでプレーンテキストを受け取りたい.texファイルがいくつかあります。
誰もこれを達成する方法についてアイデアを持っていますか？ .pdfファイルもありますが、そこからコードをコピーすると、いくつかの単語が連結されてしまいます。これは非常に悪いことです。
知っているツールはありますか？

解決

detex（1）：

OpenDetex GitHubページをご覧ください。 github.com/pkubowicz/opendetex "rel =" noreferrer "> OpenDetex 。これは、元のDeTeXのより現代的な派生バージョンです。

以前の DeTeXホームページが利用可能< a href = "https://www.cs.purdue.edu/homes/trinkle/detex/index-legacy.html" rel = "noreferrer">こちら。

従来の detex-2.8.tar ソース、こちらから入手できます。

他のヒント

opendetex は、WindowsとLinuxの両方で利用可能です

ここからプログラムopendetexをダウンロード
http://opendetex.googlecode.com/files/opendetex-2.8.1 .tar.bz2
http://code.google.com/p/opendetex/downloads/list

使用法： http://code.google.com/p/opendetex/wiki/Usage

任意のディレクトリに抽出します。ダウンロードディレクトリに展開するとします。

その中に任意の名前の別のディレクトリを作成します（オプション。ただし、作成する場合は適切です）。ディレクトリ名が＆＃8220; my_paper＆＃8221;であるとします。用紙を＆＃8220; my_paper＆＃8221;に入れますディレクトリ。あなたの論文名はproject.texです

パスをナビゲート

cd ~/Downloads/opendetex

コマンドを実行

detex -n my_paper/project.tex  > out.txt

汎用フォーム

detex -n full_path_to_tex_file.tex > output_text_file.txt

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow