Recuperar PDF to LaTeX [fechado]

https://stackoverflow.com/questions/1620002

06-07-2019
|

Pergunta

Eu sei como fazer um PDF a partir de látex. Existe uma maneira de extrair o código LaTeX a partir de um PDF que eu criado anteriormente? Que tal se alguém me envia um PDF e eu como a formatação. Posso extrair o LaTeX a partir dele?

Solução

LaTeX não tem uma conversão de um-para-um para PDF. Com relação à sua primeira pergunta, eu acredito que tal conversão de um pode ser tecnicamente possível, mas eu não acredito que um aplicativo para fazê-lo ainda existe. Semelhante à maneira como montador pode ser compilado para trás em linguagem de alto nível, provavelmente há uma maneira de fazê-lo. No entanto - um pdf é permitido para conter toda a matéria de tipos de dados - AutoCAD desenhos, gráficos JPEG, arquivos de fontes, formulários, assinaturas digitais, etc. LaTeX tem idéia do que são essas coisas. Assim, em resposta à segunda pergunta é não -. Não há uma maneira de extrair LaTeX equivalente de qualquer documento PDF

Outras dicas

Há uma ferramenta que lê arquivos PDF como um OCR e tenta recriar o Latex-Code. É quase perfeito e chamou ! Porque Latex é bastante extensível Eu não acho que obter é todos os formatos de puro direito.

Só é possível se você incorporar a fonte do documento em arquivo PDF. Veja a href="http://www.ctan.org/pkg/attachfile" rel="nofollow noreferrer"> pacote para fazer isso.

versão curta: Não.

Versão longa: É muito parecido com Decompiling:. Você tecnicamente possível, mas envolveria muita adivinhação e heurísticas

Eu não estou familiarizado com as entranhas PDF, mas ele provavelmente vai definir tipos de letra / tamanhos / posição diretamente, em vez de definir um formato e aplicá-lo aos cabeçalhos e tal, como em LaTeX.

É possível converter seu PDF para HTML e HTML para TEX usando pdftohtml e gnuhtml2latex.

Na verdade, você está fazendo PDF para conversão de LaTeX em 2 etapas. O resultado ainda é como "fazer uma vaca para fora de um hambúrguer", mas em combinação com alguns scripts de limpeza o resultado pode ser bastante decente.

O post " rudimentar PDF to LaTeX conversão em Linux " na GlobalBlindSpot tem um exemplo script que converte um .pdf para um arquivo .tex e que um para um arquivo .pdf novamente.

Veja a minha resposta na questão relacionada ( como transformar um DVI para tex? )

Para amplificar - não há nenhuma exigência para os personagens estar em ordem de leitura (eu encontrei PDFs onde parte do sdrawkcab sdaer txet (e baseia-se nas coordenadas) Isso é muito difícil reconstruir, pois ele pode depender de métricas de fonte. . Qual pode usar o protocolo ASCII86 terrível.

A melhor maneira de Data Mining de arquivos PDF (devido ao seu formato complicado) é para abri-los com Adobe Illustrator. Em seguida, converter o arquivo pdf para arquivo de SVG e usar uma biblioteca de parser SVG escrever algum código complicado em si mesmo.

Um eficiente lib analisador SVG é batik

(Para Linux é bastante um pouco complexo para converter pdf para SVG: calcmaster.net/personal_projects/pdf2svg /)

PS Eu tenho tentado desde muito para encontrar uma solução para a sua segunda parte da sua pergunta mas eu descobri nos livros como "A visualização de dados, Ben Fry, O'Reilly" que pdf especialmente Adobe pdf é complexo para analisar, então ao invés usar uma lib analisador SVG.

Inkscape pode importar PDFs e, em seguida, salvar como "LaTeX com PSTricks macros", que funciona essencialmente através da incorporação PostScript na fonte LaTeX. É mais problemas do que seu valor, ea fonte de látex resultante tem de ser pré-processado antes que ele possa ser emitidos como um PDF novamente.

De qualquer forma, mesmo com alguma PDF hipotética para compilador LaTeX, na melhor das hipóteses você deseja obter algo em que a posição do tamanho e cada caractere ou palavra é especificada separadamente - o oposto do que você quer, que eu estou supondo que é para um denominador para ser uma metade de uma fracção, em vez de um certo número abaixo de uma linha horizontal.

Pode trabalhar com TeXmacs , que inclui uma importação de arquivos PDF.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow