Come rilevare testo duplicato con un po 'di confusione
-
04-07-2019 - |
Domanda
Qualche cosa fa, scrivo small script utilizzando Text :: DeDupe per rimuovere duplicati di post di blog prima Devo posare gli occhi su di loro.
Dopo aver letto Clustering sintattico del Web articolo su cui si basa l'implementazione, mi piacerebbe avere la capacità di trovare documenti sovrapposti (ad esempio frammenti di blog rispetto al testo completo, forse anche virgolette).
Conosci qualche altra implementazione in C, C ++ o perl che posso provare prima di scrivere la mia?
Soluzione
SpotSigs sembra adattarsi perfettamente al mio conto, ecco alcuni riferimenti:
- http://dbpubs.stanford.edu/pub/2008-10
- http: //infoblog.stanford .edu / 2008/08 / spotsigs-sono-stopwords-finalmente-buon-for.html
- http://ilpubs.stanford.edu:8090/860/
Il codice soruce per questo modulo è ospitato su GitHub:
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow