Question

  

Possible en double:    outil pour comparer un grand nombre de fichiers PDF?

Je suis dans le scénario classique où l'entreprise vous donne un tas de nouveaux formulaires PDF pour la nouvelle année avec aucune note de révision que ce soit et que vous êtes censé pour savoir ce qui est différent de ceux de l'année précédente .

Je parle des tas de formes ici, donc je suis en train de trouver un moyen de comparer des fichiers PDF à des différences de contour sans avoir les gens à effectuer manuellement chacun d'entre eux.

Mon idée était d'extraire tout le texte à partir des fichiers PDF et jeter dans un fichier .txt différences puis exécutez sur des fichiers texte, mais il semble horrible.

Ma question dit programme, mais je serais heureux avec des outils fiables pour comparer les fichiers PDF, et principalement à la recherche pour avoir une idée des expériences de personnes. De plus disposés à envisager des solutions programmatiques (de préférence en C #, mais pls tirer sur idées ).

Était-ce utile?

La solution

Il y a un bon nombre de produits logiciels qui prétendent pdfs diff. Je ne l'ai jamais eu besoin d'utiliser un mais si cela va être un processus récurrent, je pense qu'il serait sage pour votre entreprise d'investir dans l'un d'entre eux. Juste Google « pdf diff » pour un tas d'applications potentielles.

En outre, votre situation est très similaire à cette question: outil pour comparer un grand nombre de les fichiers PDF? Je pense que la discussion peut aider.

Autres conseils

Je suis un développeur de Docotic.Pdf Bibliothèque . Nous utilisons la comparaison PDF dans les tests unitaires pour vérifier ce test produit PDF comme prévu. PDF est une collection d'objets spéciaux et nous comparons tous les objets PDF en ignorant certaines propriétés comme ID de remorque et informations créateur. Cette implémentation fonctionne très bien.

Vous pouvez essayer la méthode PdfDocument.DocumentsAreEqual . Cette méthode juste vous dire sont des documents égaux, sans différences spécifiques. Vous pouvez nous contacter si vous avez besoin de plus de fonctionnalités.

Je suis allé l'approche pour obtenir les données brutes sur le PDF, puis faire usage de Word ou TortiseSVN, ou Winmerge, etc ... pour prendre soin de la pièce de comparaison. Dans mon exemple, je l'ai fait la comparaison dans un RichTextBox en C # ... coloration des différences, etc ... car nous voulions tout dans notre application.

Voici ce que je faisais ... comparaison de PDF que je tentais de comparer documents mixtes, Word et PDF.

Cependant, je recommande PDFBox pour l'analyse syntaxique, un peu plus élégant ... bien iTextSharp bien passé ...

J'ai écrit un blog qui suggère quelques approches de comparaison des fichiers PDF à https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top