Come rilevare testo duplicato con un po 'di confusione

https://stackoverflow.com/questions/234084

04-07-2019
|

Domanda

Qualche cosa fa, scrivo small script utilizzando Text :: DeDupe per rimuovere duplicati di post di blog prima Devo posare gli occhi su di loro.

Dopo aver letto Clustering sintattico del Web articolo su cui si basa l'implementazione, mi piacerebbe avere la capacità di trovare documenti sovrapposti (ad esempio frammenti di blog rispetto al testo completo, forse anche virgolette).

Conosci qualche altra implementazione in C, C ++ o perl che posso provare prima di scrivere la mia?

Soluzione

SpotSigs sembra adattarsi perfettamente al mio conto, ecco alcuni riferimenti:

Il codice soruce per questo modulo è ospitato su GitHub:

http://github.com/jzawodn/perl-text-spotsig

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow