Как обнаружить повторяющийся текст с некоторой нечеткостью
-
04-07-2019 - |
Вопрос
Где-то назад я пишу небольшой сценарий с использованием Текст::DeDupe удалить дубликаты сообщений в блоге, прежде чем я увижу их.
После прочтения Синтаксическая кластеризация Интернета документ, на котором основана реализация, мне бы хотелось иметь возможность находить пересекающиеся документы (например,фрагменты блогов, а не полный текст, возможно, еще и цитаты).
Знаете ли вы какую-либо другую реализацию на C, C++ или Perl, которую я могу опробовать, прежде чем писать свою собственную?
Решение
SpotSigs, кажется, полностью соответствует моим требованиям, вот несколько ссылок:
- http://dbpubs.stanford.edu/pub/2008-10
- http://infoblog.stanford.edu/2008/08/spotsigs-are-stopwords-finally-good-for.html
- http://ilpubs.stanford.edu:8090/860/
Исходный код этого модуля размещен на GitHub:
Не связан с StackOverflow