Como detectar texto duplicado com algum fuzzyness
-
04-07-2019 - |
Pergunta
Uma coisa atrás, eu escrevo pequena roteiro usando Text :: DeDupe para remover duplicatas de posts antes Eu tenho que colocar os olhos sobre eles.
Depois de ler sintática Clustering da Web papel no qual implementação é baseada, eu adoraria ter capacidade para encontrar documentos sobrepostos (por exemplo, trechos de blogs em oposição ao texto completo, talvez também aspas).
Você sabe de qualquer outra aplicação em C, C ++ ou Perl que eu possa experimentar antes de escrever meu próprio?
Solução
SpotSigs parece caber minha conta apenas para a direita, aqui estão algumas referências:
- http://dbpubs.stanford.edu/pub/2008-10
- http: //infoblog.stanford .edu / 2008/08 / spotsigs-são-stopwords-finalmente-bom-for.html
- http://ilpubs.stanford.edu:8090/860/
O código soruce para este módulo está hospedado no GitHub:
Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow