Pregunta

Hace algo, escribo pequeño script utilizando Text :: DeDupe para eliminar los duplicados de las publicaciones del blog antes Tengo que poner mis ojos en ellos.

Después de leer Agrupación sintáctica de la Web documento en el que se basa la implementación, me encantaría tener la capacidad de encontrar documentos superpuestos (por ejemplo, fragmentos de blogs en lugar de texto completo, tal vez también citas).

¿Conoces alguna otra implementación en C, C ++ o perl que pueda probar antes de escribir la mía?

¿Fue útil?

Solución

SpotSigs parece encajar perfectamente en mi factura, aquí hay algunas referencias:

El código soruce para este módulo está alojado en GitHub:

http://github.com/jzawodn/perl-text-spotsig

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top