Comment détecter le texte en double avec un peu de fuzzyness
-
04-07-2019 - |
Question
Il y a quelque chose, j'écris small script utilisant Text :: DeDupe pour supprimer les doublons de messages de blog avant Je dois poser mes yeux sur eux.
Après avoir lu Regroupement syntaxique du Web Dans le document sur lequel est basée la mise en œuvre, j'aimerais pouvoir trouver des documents qui se chevauchent (par exemple des extraits de blogs par opposition à du texte intégral, peut-être aussi des citations).
Connaissez-vous une autre implémentation en C, C ++ ou perl que je peux essayer avant d'écrire la mienne?
La solution
SpotSigs semble bien me convenir, voici quelques références:
- http://dbpubs.stanford.edu/pub/2008-10
- http: //infoblog.stanford .edu / 2008/08 / spotsigs-are-stopwords-finally-good-for.html
- http://ilpubs.stanford.edu:8090/860/
Le code soruce de ce module est hébergé sur GitHub:
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow