Comment détecter le texte en double avec un peu de fuzzyness

https://stackoverflow.com/questions/234084

text
diff
duplicates
duplicate-data
duplication

04-07-2019
|

Question

Il y a quelque chose, j'écris small script utilisant Text :: DeDupe pour supprimer les doublons de messages de blog avant Je dois poser mes yeux sur eux.

Après avoir lu Regroupement syntaxique du Web Dans le document sur lequel est basée la mise en œuvre, j'aimerais pouvoir trouver des documents qui se chevauchent (par exemple des extraits de blogs par opposition à du texte intégral, peut-être aussi des citations).

Connaissez-vous une autre implémentation en C, C ++ ou perl que je peux essayer avant d'écrire la mienne?

La solution

SpotSigs semble bien me convenir, voici quelques références:

http://dbpubs.stanford.edu/pub/2008-10
http: //infoblog.stanford .edu / 2008/08 / spotsigs-are-stopwords-finally-good-for.html
http://ilpubs.stanford.edu:8090/860/

Le code soruce de ce module est hébergé sur GitHub:

http://github.com/jzawodn/perl-text-spotsig

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow