manera confiable de (programación) comparar los archivos PDF? [duplicar]

https://stackoverflow.com/questions/3834928

26-09-2019
|

Pregunta

Duplicar posibles:
herramienta para comparar un gran número de archivos PDF?

Estoy en el clásico escenario donde el negocio le da un montón de new formularios PDF para el nuevo año sin notas de revisión en absoluto y que se supone que averiguar qué es diferente de los años anteriores .

Estoy hablando un montón de formas aquí, así que estoy tratando de encontrar una manera de comparar archivos PDF a diferencias de esquema sin tener la gente para ir manualmente a través de todos y cada uno de ellos.

Mi idea era extraer todo el texto de los archivos PDF y lo descarga en un archivo .txt diferencias continuación, ejecute en archivos de texto, pero suena horrible.

Mi pregunta dice programación, pero yo estaría feliz con herramientas fiables para la comparación de archivos PDF, y sobre todo mirando para tener una idea de las personas experiencias. También dispuesto a considerar cualquier soluciones programáticas (preferentemente en C #, pero pls disparar a los ideas).

Solución

Hay un buen número de productos de software que pretenden pdfs diff. Nunca he tenido necesidad de utilizar uno, pero si esto va a ser un proceso recurrente que creo que sería conveniente para su empresa a invertir en uno de ellos. Sólo Google "pdf diff" para un grupo de aplicaciones potenciales.

Además, su situación es muy similar a esta pregunta: herramienta para comparar un gran número de Los archivos PDF? creo que la discusión puede ayudar.

Otros consejos

Soy un desarrollador de Biblioteca Docotic.Pdf . Utilizamos comparación PDF en las pruebas de unidad para comprobar que la prueba produce PDF como se esperaba. PDF es una colección de objetos especiales y comparar todos los objetos PDF haciendo caso omiso de algunas propiedades como identificadores de remolque y creador de información. Esta aplicación funciona bien.

Puede probar el método PdfDocument.DocumentsAreEqual . Este método simplemente dirá que son documentos iguales, sin diferencias específicas. Puede ponerse en contacto con nosotros si necesita más funcionalidad.

I fue el enfoque de obtener los datos en bruto de la PDF, a continuación, haciendo uso de la palabra o TortiseSVN o WinMerge, etc ... para cuidar de la pieza de comparación. En mi caso lo hice la comparación en un RichTextBox en C # ... colorear las diferencias, etc ... ya que queríamos que todo dentro de nuestra aplicación.

Esto es lo que hice ... comparación PDF ya que estaba tratando de comparar documentos mixtos, Word y PDF.

Sin embargo, recomendaría PDFBox para el análisis sintáctico, un poco más elegante ... aunque iTextSharp salió bien ...

Me escribió un blog que sugiere algunos enfoques para comparar archivos PDF en https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow