Pergunta

Uma coisa atrás, eu escrevo pequena roteiro usando Text :: DeDupe para remover duplicatas de posts antes Eu tenho que colocar os olhos sobre eles.

Depois de ler sintática Clustering da Web papel no qual implementação é baseada, eu adoraria ter capacidade para encontrar documentos sobrepostos (por exemplo, trechos de blogs em oposição ao texto completo, talvez também aspas).

Você sabe de qualquer outra aplicação em C, C ++ ou Perl que eu possa experimentar antes de escrever meu próprio?

Foi útil?

Solução

SpotSigs parece caber minha conta apenas para a direita, aqui estão algumas referências:

O código soruce para este módulo está hospedado no GitHub:

http://github.com/jzawodn/perl-text-spotsig

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top