我想转换的通过程序PDF HTML。到目前为止,我已经使用 pdftohtml 但是,我们的用户不满意的结果。

这里是我需要的:

  • 我用红宝石在轨道上,但任何工作上的Unix会的工作作为我可以叫它从命令行。但是,当然是一个漂亮的宝石或插件将是完美的。

  • 我喜欢它是开放源

  • 它需要能够处理的图像

  • 这将是好的,如果有一个选择放弃的图像,如果需要的话

  • 它需要稳定

  • 它需要返回html有一个布局接近原始pdf(我已经试过了 pdftohtml 结果不是很好,在很多情况下)

有帮助吗?

解决方案

这里有几更替代pdftohtml/xpdf:

  • Adobe有一个免费的在线PDF为HTML文本或 转换服务.这可能需要一两分钟,以获得该文件回来的,但我会怀疑,此选择会给你最好的结果。
  • 还有一个 pdf-读者 红宝石宝石那会给你进入内部的PDF文件。这将涉及一些发展/扩展你的一部分,但你可以用这个分析的PDF文件和产生的好看HTML。这可能是更便于它的声音如果你知道什么类型的文件的用户正在转换之前的时期(例如如果他们的工作与标准化形式)。
  • 你可以有更多的选择如果你使用 终止 (宝石 在这里找到)转换成PDF以另一种格式的第一个。宝石不可能产生的图像(png,jpg,等等)从PDF文件,但你可能有最好的运气转换成一个后记文件,因为似乎有无数个"PostScript到[插入格式在这里]"转换器。

其他提示

为PDF to HTML转换,pdf2htmlEX似乎是一个非常好的工具(在所有的实例/个样品):

https://github.com/coolwanglu/pdf2htmlEX

如果一切都失败了,你可以把每一页进入一个图像(使用图像的魔法或类似的)和显示器的图像,一拉 http://books.google.comhttp://safari.oreilly.com.这将会是一个宽的生猪,而你会得到忠实于原文。

我花了一段时间工作的一个研究项目,该项目涉及把Pdf作为输入。什么你问的是只是一个非常困难的任务,和没有软件将这样做完美。而HTML有一些结构,就像 <p>, PDF是纯粹的陈述.HTML文档会说,"这是一个段落。这是一个影像."和介绍的解释。PDF文档将从根本上说:"这个字应该呈现在的位置X、Y。这下chracter将呈现在的位置..."等。因此,即使建设的段落的可能是困难的。

我的工作,所以我不认为具体的程序,我将使用多少用于你。此外,我记得,一些PDF发电机的拼接图像进入较小的图像,并显示他们在彼此旁边--这是一个巨大的痛苦。

是否有任何可能的方式可以将工作与不同的格式,或下你的期望吗?你可以做到的图像的事,韦恩所表明的,但那就不是 真的 HTML(它是不可访问--是一个关心你吗?).这可能只是有些东西你一起生活。

尝试使用poppler或xpdf.但它需要一些魔法并具有约束力。

你可以试试 http://www.pdf-to-html-word.com/pdf-to-html 其中的作品真的很好。我付了钱之后,检查它的功能。你有一个免费乘车测试。或其他使用Acrobat亲和保存为HTML与CSS。这一工作。但这是一个痛苦的一个**要做一大堆的文件。

可以试试这个。我已经采取了一切在包装的红宝石周围pdftohtml实用工具。宝石可以在这里: http://gemcutter.org/gems/pdftohtmlr

后使用pdftohtml一段时间并不满意的结果显示html版本,我在考虑使用的谷歌应用程序的文件API或本书API(我最喜欢现在)

http://www.scribd.com/developers/api

最后,我可能会使用pdftohtml到简单地提取的文本内容的pdf文件 和这本书api显示原始文件的用户页

我刚刚发布的红宝石宝石转换文件与开放的办事处无头(通过poyconverter或jodconverter).它还集成了其他几librairies(pdftools和netpbm)中提取的文本dans的图像,从pdf文件。

你可以在这里找到它 https://github.com/itkin/proselytism.git

随时加入你自己的转换和报告让我有些问题

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top