可靠的方法（编程）比较PDF文件？ [重复]

https://stackoverflow.com/questions/3834928

26-09-2019
|

题

<强>可能重复：结果工具比较大量的PDF文件的？

我在经典场景的业务给你一堆的新的PDF表单在新的一年与任何和你应该弄清楚发生了什么比上年那些不同没有修订说明

我说的形式负载在这里，所以我试图找到一种方法来比较PDF文件，以大纲的差异，而无需人手动完成每他们中的每一个。

我的想法是提取PDF文件中的所有文本，并将其倾倒入.txt的文本文件，然后运行差异，但它听起来太可怕了。

我的问题说编程，但我很高兴与比较PDF文件，主要希望得到人们的经验的想法任何可靠的工具。也愿意接受任何程序化解决方案（最好在C＃但请拍摄出的任何思路）。

有帮助吗？

解决方案

有相当多的软件产品，声称能DIFF PDF文件。我从来没有需要使用一个，但如果这将是一个反复的过程，我认为它会是明智的，为贵公司在其中的一个投资。只是谷歌的“PDF DIFF”为一堆的潜在应用。

此外，你的情况是非常相似的这个问题：工具比较大量的PDF文件？我想讨论可能的帮助。

其他提示

我 Docotic.Pdf图书馆的开发商。我们使用PDF比较在单元测试检查测试产生PDF预期。 PDF是特殊对象的集合，我们比较所有PDF对象忽略像拖车的ID和创建者信息的一些属性。此实现正常工作。

您可以尝试 PdfDocument.DocumentsAreEqual 。这种方法只是告诉你的文档平等的，没有具体的差异。如果你需要更多的功能，可以联系我们。

我去的办法来获取原始数据从PDF的，然后利用Word或TortiseSVN，或的WinMerge等......拿一块比较照顾。在我的情况确实在C＃一个RichTextBox比较...着色的差异，等等......因为我们我们的应用程序内想这一切。

下面是我做过什么？ PDF比较混合文档，Word和PDF。

不过，我会建议PDFBox的用于解析，更优雅......有点虽然iTextSharp的制定确定...

我写了一篇博客提出一些方法来比较PDF文件在 https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow