大規模なデータベース内のデータの相関

https://stackoverflow.com/questions/1828916

11-09-2019
|

質問

私たちは、データポリシーの遵守にそれを持って来るために私たちの企業全体にわたって保存された特定の情報の場所を特定しようとしています。ファイルの最後に、我々は、異なるファイルを検索するNessusのを使っているが、私は、データベースの終わりに疑問を抱いています。

それが出力生データをだろうし、それが中にあったものを表または行を教え、または私たちに多くの有用な情報を与え、特にこれらのデータベースは、（数百GB）非常に大きい考慮しません。ので、

Nessusのを使用すると、大部分が無意味と思われます

注目に値するまた、このシステムは、（例えば、正規表現を使用するなど）パターンベースのマッチングを行うことができる必要があります。だけではなく、「ダム検索」エンジンます。

私は、このデータを見つけるためにデータマイニングとデータ・ウェアハウスの使用を検討してきましたが、彼らが実際にはデータを見つけることよりもデータの分析のために多くをしているように思える。

試してみて、この情報を見つけるために、データベースに大量のデータを検索するより良い方法はありますか？私たちは、Oracle 11gとSQL Server 2008の両方を使用しての両方で検索を実行する必要があるので、私は（サーバー固有のパラダイムから離れて滞在したいと思いますが、私はT-SQLからPLに変換するためにいくつかのコードを書き直す必要がある場合/ SQL、およびその逆、私は気にしない）

解決

大量のテキストを検索用のSQL Server上では、全文検索に見ることができます。

より、ここで読む http://msdn.microsoft.com/en-私たち/ライブラリ/ ms142559.aspxする

しかし、私は右読んでいた場合、あなたはどのようにウェブ検索エンジンのスパイダーウェブサイトやウェブページと同様の方法でデータベースをスパイダーしたい。

あなたは、複数のテーブルにまたがる結果を戻すフルテキストクエリのセットを使用することができます。

他のヒント

Oracleは、REGEXP_LIKE（）関数で正規表現をサポートしており、それが（例えば、一定の長さにわたって、すべてのテキスト列を検索するには、システムmetadateに基づいて必要なコードの生成を自動化することは非常に簡単であるべき、とそれらを含めますそのテーブルagaint述語であなたの正規表現に一致する行と値）を見つけるために。本当にあまりにも挑戦的な音はありません。理論的には、正規表現に一致するが、それはやり過ぎかもしれない値の挿入を防止するために列を制約チェックすることができます。

Oracle Textはラーグ（ISH）内の単語/フレーズをデータベースに保持されているテキストのビット（例えば、PDFファイル、HTMLなど、TXT又はドキュメントを）探索するのに適しています。そこ検索一部の限られた曖昧さがあるが、それ自体ではない正規表現。

あなたは本当にデータの種類を、あなたが探しているか、何を、あなたのデータベースを持っているになりません。 Nessusのは、セキュリティ上の問題を探していることを示しますが、「データの相関」のタイトルは完全に異なる何かを示唆してます。

本当にデータ構造は何を探すべきかについての情報を提供する必要があります。アクセシビリティのための構造化データ - それは、データベースを約あるものです。データベースは、CMS、フォーラムソフトウェアをバックアップまたは類似したが、魚の異なるやかんになります。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow