Domanda

Qualche cosa fa, scrivo small script utilizzando Text :: DeDupe per rimuovere duplicati di post di blog prima Devo posare gli occhi su di loro.

Dopo aver letto Clustering sintattico del Web articolo su cui si basa l'implementazione, mi piacerebbe avere la capacità di trovare documenti sovrapposti (ad esempio frammenti di blog rispetto al testo completo, forse anche virgolette).

Conosci qualche altra implementazione in C, C ++ o perl che posso provare prima di scrivere la mia?

È stato utile?

Soluzione

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top