Domanda

  

Eventuali duplicati:
   strumento per confrontare un gran numero di file PDF?

Sono nel classico scenario in cui l'attività che dà un po 'di nuovi moduli PDF per il nuovo anno senza note di revisione di alcun tipo e che si suppone di capire cosa c'è di diverso dai precedenti quelli dell'anno .

Sto parlando carichi di forme qui, quindi sto cercando di trovare un modo per confrontare file PDF a differenze di struttura senza dover gente ad andare manualmente attraverso tutti e ciascuno di loro.

La mia idea era quella di estrarre tutto il testo dai file PDF e scaricare in un file .txt differenze quindi eseguire su file di testo, ma suona orribile.

La mia domanda afferma a livello di codice, ma sarei felice con qualsiasi strumenti affidabili per il confronto di file PDF, e, soprattutto, cercando di ottenere un'idea da persone esperienze. Anche disposti ad intrattenere eventuali soluzioni programmatiche (preferibilmente in C #, ma pls sparare fuori qualsiasi le idee).

È stato utile?

Soluzione

C'è un bel paio di prodotti software che pretendono di file PDF diff. Non ho mai avuto bisogno di usare uno, ma se questo sta per essere un processo ricorrente penso che sarebbe saggio per la vostra azienda ad investire in uno di essi. Proprio Google "pdf diff" per un gruppo di potenziali applicazioni.

Inoltre, la situazione è molto simile a questa domanda: strumento per confrontare un gran numero di I file PDF? penso che la discussione può aiutare.

Altri suggerimenti

Sono uno sviluppatore di Docotic.Pdf Biblioteca . Usiamo confronto PDF in unit test per controllare che prova produce PDF come previsto. PDF è un insieme di oggetti speciali e confrontare tutti gli oggetti PDF ignorando alcuni immobili come ID del rimorchio e informazioni creatore. Questa implementazione funziona bene.

È possibile provare il metodo PdfDocument.DocumentsAreEqual . Questo metodo solo dire sei documenti uguali, senza differenze specifiche. Potete contattarci se avete bisogno di più funzionalità.

Sono andato l'approccio per ottenere i dati grezzi dal PDF, poi facendo uso di Word o TortiseSVN, o WinMerge, ecc ... per prendersi cura del pezzo confronto. Nel mio caso ho fatto il confronto in un RichTextBox in C # ... colorare le differenze, ecc ... perché volevamo tutto all'interno della nostra applicazione.

Ecco quello che ho fatto ... confronto PDF come stavo cercando di confrontare documenti misti, Word e PDF.

Comunque mi sento di raccomandare PDFBox per l'analisi, un po 'più elegante ... anche se iTextSharp andato tutto bene ...

Ho scritto un blog che suggerisce alcuni approcci in file PDF confronto a https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top