Cómo detectar texto duplicado con algo borroso

https://stackoverflow.com/questions/234084

text
diff
duplicates
duplicate-data
duplication

04-07-2019
|

Pregunta

Hace algo, escribo pequeño script utilizando Text :: DeDupe para eliminar los duplicados de las publicaciones del blog antes Tengo que poner mis ojos en ellos.

Después de leer Agrupación sintáctica de la Web documento en el que se basa la implementación, me encantaría tener la capacidad de encontrar documentos superpuestos (por ejemplo, fragmentos de blogs en lugar de texto completo, tal vez también citas).

¿Conoces alguna otra implementación en C, C ++ o perl que pueda probar antes de escribir la mía?

Solución

SpotSigs parece encajar perfectamente en mi factura, aquí hay algunas referencias:

http://dbpubs.stanford.edu/pub/2008-10
http: //infoblog.stanford .edu / 2008/08 / spotsigs-are-stopwords-finally-good-for.html
http://ilpubs.stanford.edu:8090/860/

El código soruce para este módulo está alojado en GitHub:

http://github.com/jzawodn/perl-text-spotsig

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow