質問

前に、 smallと書きます Text :: DeDupe を使用して以前のブログ投稿の重複を削除するスクリプト私は彼らに目を向けなければなりません。

Webの構文クラスタリングを読んだ後実装の基礎となる論文では、重複するドキュメント(たとえば、フルテキストではなくブログのスニペット、引用など)を検索できるようになります。

C、C ++、またはperlの他の実装を知っていますか?自分で作成する前に試すことができますか

役に立ちましたか?

解決

SpotSigsは私の法案にぴったりのようです。ここにいくつかのリファレンスがあります:

このモジュールのソースコードはGitHubでホストされています:

http://github.com/jzawodn/perl-text-spotsig

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top