Extrair texto de tex, tags látex remove
-
06-07-2019 - |
Pergunta
Eu tenho alguns arquivos .tex a partir do qual você quer receber o texto simples, sem quaisquer etiquetas de látex como \ section {...} ou \ newpage.
Alguém tem alguma idéia sobre como conseguir isso?
Eu também tenho o arquivo .pdf, mas quando eu copiar o código de lá, algumas palavras se concatenado que é muito ruim.
Existe alguma ferramenta que você sabe?
Solução
Por favor, veja o OpenDetex GitHub página para a versão mais recente do OpenDetex . É uma versão mais moderna, derivado da minha DETEX originais.
Meu legado home page DETEX está disponível < a href = "https://www.cs.purdue.edu/homes/trinkle/detex/index-legacy.html" rel = "noreferrer"> aqui .
Se você quiser apenas o legado Detex-2.8.tar fonte, você pode obtê-lo aqui .
Outras dicas
opendetex está disponível tanto para Windows e Linux
baixar o opendetex programa a partir daqui
http://opendetex.googlecode.com/files/opendetex-2.8.1 .tar.bz2
http://code.google.com/p/opendetex/downloads/list
Uso: http://code.google.com/p/opendetex/wiki/Usage
extraí-lo para qualquer diretório de sua escolha. Diga u extraí-lo para o diretório de Downloads.
fazer uma outra diretório de qualquer nome em que (opcional. Mas é bom se u criar). digamos o nome do diretório é “my_paper”. Colocar o seu papel no diretório “my_paper”. Diga o seu nome do papel é project.tex
Navegar através do caminho
cd ~/Downloads/opendetex
Executar o comando
detex -n my_paper/project.tex > out.txt
forma genérica
detex -n full_path_to_tex_file.tex > output_text_file.txt