あいまいさのある重複テキストを検出する方法
-
04-07-2019 - |
質問
前に、 smallと書きます Text :: DeDupe を使用して以前のブログ投稿の重複を削除するスクリプト私は彼らに目を向けなければなりません。
Webの構文クラスタリングを読んだ後実装の基礎となる論文では、重複するドキュメント(たとえば、フルテキストではなくブログのスニペット、引用など)を検索できるようになります。
C、C ++、またはperlの他の実装を知っていますか?自分で作成する前に試すことができますか
解決
SpotSigsは私の法案にぴったりのようです。ここにいくつかのリファレンスがあります:
- http://dbpubs.stanford.edu/pub/2008-10
- http://infoblog.stanford .edu / 2008/08 / spotsigs-are-stopwords-finally-good-for.html
- http://ilpubs.stanford.edu:8090/860/
このモジュールのソースコードはGitHubでホストされています:
所属していません StackOverflow