Question

Il y a quelque chose, j'écris small script utilisant Text :: DeDupe pour supprimer les doublons de messages de blog avant Je dois poser mes yeux sur eux.

Après avoir lu Regroupement syntaxique du Web Dans le document sur lequel est basée la mise en œuvre, j'aimerais pouvoir trouver des documents qui se chevauchent (par exemple des extraits de blogs par opposition à du texte intégral, peut-être aussi des citations).

Connaissez-vous une autre implémentation en C, C ++ ou perl que je peux essayer avant d'écrire la mienne?

Était-ce utile?
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top