チェックのための文書の複製を、同様の書類を、文書管理アプリケーション

StackOverflow https://stackoverflow.com/questions/1728977

質問

更新: 今書PHP拡張子と呼ばれ php_ssdeep のssdeep C APIをファジィハッシュおよびハッシュ比較PHPのネイティブ.関するお客様からの問い合わせ 以上で私のこのブログ.これは人です。

極めて高いと思いますが文書のカスタム文書管理アプリケーションはクリアLinuxボックスとレンスドキュメントファイルフォーマット(潜在的に1000のファイル)をチェックインすることはできるかどうかテキストドキュメントについて説明が行われました。前の予防に重複のデータベースです。

基本的にユーザーが遊びのファイルを保存し、新規ファイルしたいできることはもちろんのこと、ファイルの一覧から重複が含まれる同様の内容です。これかせて選べるので、既存の書きアップロード。

類似文書間の思決定を通して見ているコンテンツを同様のsentancesように動的に生成されるリストのキーワードその上で、いまを表示す割合は、ユーザに対する取り入れて楽しんでもらえるように重複している。

できるださいパッケージのためのこのプロセス、そのアイデアをどういうことです。

直接の複製と思いきってすべてのテキスト内容

  • 剥離の空白文字
  • 句読点の除去
  • 変換の低下または上の場合

その形MD5ハッシュの比較では新たな。剥離れ以外の製品は防止dupesれていないた場合、ユーザーの編集"の文書の追加追加項の規定休です。意思い?

このプロセスにも潜在的に、毎晩仕事は、この通知は、ユーザーの複製が次にログインの場合の計算条件が大きすぎるリアルタイム.リアルタイムが好ました。

役に立ちましたか?

解決

更新: 今書PHP拡張子と呼ばれ php_ssdeep のssdeep C APIをファジィハッシュおよびハッシュ比較PHPのネイティブ.関するお客様からの問い合わせ 以上で私のこのブログ.これは人です。

いるプログラムなどの創エKornblum、通話"Fuzzy".非常に基本的なハッシュのファイルを検出することができ類似のファイルまたは同一です。

の理論では文書化した。 特定とほぼ同等のファイルを使用脈動現象をハッシュ化

ssdeep はプログラムの名前できるWindowsまたはプログラムを利用しています。.また使用法計算うですが、最適な目的としています。そして、短期試験の古Pentium4機で約3秒、ハッシュファイルの23MB(ハッシュのために135,000ファイル)とマッチに対し二つのファイルです。その時に成のためのハッシュのファイルを探していました反対しています。

他のヒント

ように同じような問題web2projectとい周りを掘り、結論を出したのは、ユーザになるため、を複製の書類 案件のユーザーをとることができる者であれが独自の文書によりその名前がついています。

もっとも、このアプローチか:

  • 許可ユーザのアップロード文書に関連付けることによりいずれかプロジェクト業務につい;
  • のファイル名変更を防ぐために取得できましてはhttp..以上の外部に格納された、ウェブです。ユーザーもファイル名、システムであれば、ダウンロードを設定することができヘッダーの"適切な"ファイル名;
  • ある時点で、将来、プロセスの文献への参照がある場合は複製を..この点が、 ない を変更します。そもそもできる重要な理由は、空白または時価総額の変更;
  • がある場合dupes、削除の新しいファイルへのリンクの一;
  • 場合がありませんdupesされていません;
  • Indexファイルの検索条件によって、ファイル形式のため、多くのオプションでも単語のdocs;

全てのこだわりのユーザーまたは重複した...います。ですから(開発者db管理者など)。

あり、この作品もアップロードの新しいバージョンのファイルです。まず、削除するファイルへの参照、そのようなごみ収集のおのみを削除し、古いファイルがある場合はゼロへの参照です。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top