Как обнаружить повторяющийся текст с некоторой нечеткостью

StackOverflow https://stackoverflow.com/questions/234084

Вопрос

Где-то назад я пишу небольшой сценарий с использованием Текст::DeDupe удалить дубликаты сообщений в блоге, прежде чем я увижу их.

После прочтения Синтаксическая кластеризация Интернета документ, на котором основана реализация, мне бы хотелось иметь возможность находить пересекающиеся документы (например,фрагменты блогов, а не полный текст, возможно, еще и цитаты).

Знаете ли вы какую-либо другую реализацию на C, C++ или Perl, которую я могу опробовать, прежде чем писать свою собственную?

Это было полезно?

Решение

SpotSigs, кажется, полностью соответствует моим требованиям, вот несколько ссылок:

Исходный код этого модуля размещен на GitHub:

http://github.com/jzawodn/perl-text-spotsig

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top