Domanda

Mi piacerebbe essere in grado di confrontare un file binario X in una directory di altri file binari e trovare quale altro file è più simile a X. La natura dei dati è tale che esisteranno pezzi identici tra i file, ma forse spostato in posizione. I file sono tutte 1 MB di dimensione, e ci sono circa 200 di loro. Mi piacerebbe essere avere qualcosa abbastanza veloce per analizzare questi in un paio di minuti o meno su un moderno computer desktop. Googled un po 'e ho trovato una serie di vari binari differenti utilità, ma nessuno di loro sembrava il caso per la mia applicazione.

Per esempio c'è bsdiff, che sembra che crea qualche file di una patch che è ottimizzato per le dimensioni. O vbindiff che visualizza solo le differenze graficamente, ma quelli in realtà non sembra aiutare me capire se un file è più simile a X di un altro file.

Se non c'è uno strumento che posso usare direttamente per questo scopo, v'è una buona biblioteca qualcuno potrebbe raccomandare per scrivere il mio programma di utilità? Python sarebbe preferibile, ma sono flessibile.

È stato utile?

Soluzione

Ecco un semplice script perl che più o meno cerca di fare esattamente che.

Modifica:. Anche dare un'occhiata al seguente StackOverflow filo

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top