Cómo detectar texto duplicado con algo borroso
-
04-07-2019 - |
Pregunta
Hace algo, escribo pequeño script utilizando Text :: DeDupe para eliminar los duplicados de las publicaciones del blog antes Tengo que poner mis ojos en ellos.
Después de leer Agrupación sintáctica de la Web documento en el que se basa la implementación, me encantaría tener la capacidad de encontrar documentos superpuestos (por ejemplo, fragmentos de blogs en lugar de texto completo, tal vez también citas).
¿Conoces alguna otra implementación en C, C ++ o perl que pueda probar antes de escribir la mía?
Solución
SpotSigs parece encajar perfectamente en mi factura, aquí hay algunas referencias:
- http://dbpubs.stanford.edu/pub/2008-10
- http: //infoblog.stanford .edu / 2008/08 / spotsigs-are-stopwords-finally-good-for.html
- http://ilpubs.stanford.edu:8090/860/
El código soruce para este módulo está alojado en GitHub:
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow