我知道如何从LaTeX制作PDF。有没有办法从我之前创建的PDF中提取LaTeX代码?如果有人给我发送PDF,我喜欢格式化怎么样?我可以从中提取乳酸吗?

有帮助吗?

解决方案

LaTeX没有一对一的PDF转换。关于你的第一个问题,我认为这样的转换可能在技术上是可行的,但我不认为这样做的应用程序存在。类似于汇编程序可以反编译回高级语言的方式,可能有一种方法可以做到。但是 - pdf允许包含各种数据 - AutoCAD图形,JPEG图形,字体文件,表格,数字签名等.LaTeX不知道这些是什么。所以回答第二个问题是否定的 - 没有办法从任何PDF文档中提取等效的LaTeX。

其他提示

有一个工具可以像OCR一样读取PDF文件,并尝试重新创建Latex-Code。 它几近完美,名为“Infty Reader”! 因为Latex是可扩展的,所以我认为它不是所有的整齐格式。

只有将文档源嵌入PDF文件才有可能。请参阅 attachfile 包。

简短版:否。

长版:这很像反编译:你在技术上可以,但它会涉及很多猜测和启发式。

我不熟悉PDF内部,但它可能会直接设置字体/大小/位置,而不是定义格式并将其应用于标题等,就像在LaTeX中一样。

可以使用pdftohtml和gnuhtml2latex将PDF转换为HTML,将HTML转换为TEX。

实际上,您通过两个步骤进行PDF到LaTeX转换。结果仍然像是“从一个汉堡包中取出牛”,但结合一些清理脚本,结果可能相当不错。

博客文章“基本PDF文件Linux中的LaTeX转换“在GlobalBlindSpot上有一个示例Bash脚本,它将.pdf转换为.tex文件,然后再转换为.pdf文件。

请参阅我对相关问题的回答(如何转DVI到tex?

要放大 - 不要求字符处于阅读顺序(我发现PDF中的部分sdrawkcab sdaer txet(并且依赖于坐标)。这很难重建,因为它可以依赖于Font指标哪个可以使用令人震惊的ASCII86协议。

从pdf文件进行数据挖掘的最佳方式(由于其格式复杂)是使用adobe illustrator打开它们。 然后将pdf文件转换为svg文件,并使用svg解析器库自己编写一些棘手的代码。

一个高效的svg解析器库是蜡染

(对于Linux来说,将pdf转换为svg非常复杂: calcmaster.net/personal_projects/pdf2svg /)

PS 我一直在努力寻找你问题第二部分的解决方案 但是我已经在诸如“可视化数据,Ben Fry,O’ Reilly”之类的书中想出来了。 那个pdf特别是Adobe pdf要复杂解析,所以改为使用svg解析器lib。

Inkscape可以导入PDF,然后另存为“带有PSTricks宏的LaTeX”。这基本上是通过将PostScript嵌入到LaTeX源中来实现的。这比它的价值更麻烦,所得到的Latex源必须经过预处理才能再次作为PDF输出。

无论如何,即使对LaTeX编译器有一些假设的PDF,最好还是会得到一个单独指定每个字符或单词的位置和大小的东西 - 与你想要的相反,我猜是分母是分数的一半,而不是水平线以下的某个数字。

它可能适用于 texmacs ,其中包含pdf文件的导入。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top