Como detectar texto duplicado com algum fuzzyness

https://stackoverflow.com/questions/234084

text
diff
duplicates
duplicate-data
duplication

04-07-2019
|

Pergunta

Uma coisa atrás, eu escrevo pequena roteiro usando Text :: DeDupe para remover duplicatas de posts antes Eu tenho que colocar os olhos sobre eles.

Depois de ler sintática Clustering da Web papel no qual implementação é baseada, eu adoraria ter capacidade para encontrar documentos sobrepostos (por exemplo, trechos de blogs em oposição ao texto completo, talvez também aspas).

Você sabe de qualquer outra aplicação em C, C ++ ou Perl que eu possa experimentar antes de escrever meu próprio?

Solução

SpotSigs parece caber minha conta apenas para a direita, aqui estão algumas referências:

http://dbpubs.stanford.edu/pub/2008-10
http: //infoblog.stanford .edu / 2008/08 / spotsigs-são-stopwords-finalmente-bom-for.html
http://ilpubs.stanford.edu:8090/860/

O código soruce para este módulo está hospedado no GitHub:

http://github.com/jzawodn/perl-text-spotsig

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow