La corrélation des données dans les grandes bases de données

https://stackoverflow.com/questions/1828916

11-09-2019
|

Question

Nous essayons d'identifier les emplacements de certaines informations stockées dans notre entreprise afin de le mettre en conformité avec nos politiques de données. Sur la fin du fichier, nous utilisons Nessus pour rechercher des fichiers dans différents, mais je me demande à la fin de la base de données.

L'utilisation Nessus semble largement inutile car il génèrerait les données brutes et ne nous dire quelle table ou la ligne, il était, ou nous donner beaucoup d'informations utiles, surtout si on considère ces bases de données sont assez grandes (des centaines de giga-octets).

Il convient également de noter, ce système doit être en mesure de faire de la correspondance basée sur des modèles (par exemple en utilisant des expressions régulières). Pas seulement un moteur « recherche stupide ».

Je l'ai étudié l'utilisation des mines de données et d'entreposage de données afin de trouver ces données, mais il semble qu'ils sont plus pour l'analyse des données que fait juste de trouver des données.

Y at-il une meilleure méthode de recherche par le biais de grandes quantités de données dans une base de données pour essayer de trouver cette information? Nous utilisons à la fois Oracle 11g et SQL Server 2008 et doivent effectuer des recherches sur les deux, donc je voudrais rester loin de paradigmes spécifiques au serveur (bien que si je dois réécrire un code pour traduire de T-SQL PL / SQL, et vice versa, je ne me dérange pas)

La solution

Sur SQL Server pour la recherche par le biais de grandes quantités de texte, vous pouvez regarder dans Texte complet Recherche.

En savoir plus ici http://msdn.microsoft.com/en- nous / bibliothèque / ms142559.aspx

Mais si je suis en train de lire, vous voulez araignée votre base de données de façon similaire à la façon dont un moteur de recherche araignées web sites web et pages web.

Vous pouvez utiliser un ensemble de requêtes en texte intégral qui ramènent les résultats couvrant plusieurs tableaux.

Autres conseils

Oracle prend en charge l'expression régulière avec la fonction RegExp_Like () et il devrait être assez simple pour automatiser la génération du code dont vous avez besoin basé sur le système Metadate (pour trouver toutes les colonnes de texte sur une certaine longueur, par exemple, et de les inclure dans un prédicat againt cette table pour trouver les lignes et les valeurs qui correspondent à votre regexp). Cela ne semble pas trop difficile vraiment. En théorie, vous pourriez vérifier contraindre les colonnes pour empêcher l'insertion des valeurs qui correspondent à une expression rationnelle, mais qui pourrait être surpuissant.

Oracle Text est adapté à la recherche de mots / phrases dans larg (ish) morceaux de texte (par exemple au format PDF, HTMLS, TXT ou PCOD) détenus dans la base de données. Il y a quelques recherches de flou limité, mais les expressions régulières et non en tant que tel.

On ne va pas vraiment dans quel genre de données que vous cherchez ou ce que vous avez dans vos bases de données. Nessus indique que vous êtes à la recherche pour les questions de sécurité, mais le titre de « corrélation des données » suggère quelque chose de complètement différent.

Vraiment les structures de données devraient fournir les informations sur ce qu'il faut chercher et où. C'est ce que les bases de données sont sur le point - la structuration des données en matière d'accessibilité. Une base de données soutient un CMS, un logiciel de forum ou similaire serait une autre paire de poissons.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow