比較のテキスト形式のコンテンツのwebサイト

https://stackoverflow.com/questions/1850456

13-09-2019
|

質問

私の実験のフリーテキスト比較/基礎剽窃検知というこのサイトへのサイトです。しかし、私はビットにこだわった見方を処理します。

ついてはどのように捉えてい工程との比較の内容につきましては、ウェブサイトのための剽窃?

って思ったこと擬似コード:

// extract text
foreach website in websites
  crawl website - store structure so pages are only scanned once
  extract text blocks from all pages - store this is in list

// compare      
foreach text in website1.textlist
  compare with all text in website2.textlist

ここのソリューションが非常に迅速に蓄積の多いデータでのみ可能とそれを動作させるために非常に小さい。

しかし、実際のテキストとの比較アルゴリズムだが、今の私に興味を持って、実際の処理アルゴリズムの働きます。

おうと思っていうのは良いアイデアを抽出すべてのテキストとテキスト作品（項、テーブル、ヘッダやフッタなど)は、テキストで移動する。

私はこのC#ソースコードもASP.NET).

私は非常に興味をもった入力やアドバイスいでください撃つ！:)

解決

私のアプローチはこの問題に対するgoogleのための具体的、かなりユニークなブロックのテキストが著作権が主張しようとしている。

とはいえ、ビルドする場合自分の溶液に、ここでコメント:

の尊重robots.txt.いのどかないようにしてください-クロール、チャンスはないの利益からのコンテンツ。
る必要がありまをリフレッシュサイトの構成を保存からは時としてサイトに変化します。
必要なも適切に個別テキストからHTMLタグが可能です。
ま行う必要があるためには、完全なテキスト検索、テキスト全体をページ（グ/スクリプトなどを除のためのテキストます。が、アルゴリズムです。

他のヒント

あなたはおそらくフラグメントの検出でより興味があるとしています。例えば、ページの多くは、それらの単語「家」を持つことになりますと、あなたは気にしないでください。しかし、それは非常に多くのページがページ全体でまったく同じ言葉を持っていますかなりそうです。だから、おそらく比較し、それぞれの長さのためEXCT長さ4,5,6,7,8の試合などの単語とカウントを持っているページで報告したいです。スコアを割り当て、それらを重み付けして、あなたの「マジックナンバー」を超えた場合の疑いxeroxersを報告します。

C＃の場合は、ページを取得し、かなり容易にそのテキストを取得するために）（WebBrowserコントロールを使用することができます。申し訳ありませんが、便利な一切のサンプルコードはコピーしないように/ペーストが、MSDNには、通常はかなり良いサンプルを持っています。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow