대규모 데이터베이스의 데이터 상관 관계

https://stackoverflow.com/questions/1828916

11-09-2019
|

문제

우리는 데이터 정책을 준수하기 위해 기업 전체에 저장된 특정 정보의 위치를 식별하려고 노력하고 있습니다.파일 끝에서는 Nessus를 사용하여 다른 파일을 검색하고 있지만 데이터베이스 끝에서는 궁금합니다.

Nessus를 사용하는 것은 원시 데이터를 출력하고 해당 데이터가 어떤 테이블이나 행에 있는지 알려주지 않거나 유용한 정보를 많이 제공하지 않기 때문에 대체로 무의미해 보입니다. 특히 이러한 데이터베이스가 상당히 크다는 점(수백 기가바이트)을 고려할 때 더욱 그렇습니다.

또한 주목할 만한 점은 이 시스템이 패턴 기반 일치(예: 정규식 사용)를 수행할 수 있어야 한다는 것입니다.단순한 "멍청한 검색" 엔진이 아닙니다.

이 데이터를 찾기 위해 데이터 마이닝 및 데이터 웨어하우징의 사용을 조사했지만 실제로 데이터를 찾는 것보다 데이터 분석에 더 많은 것 같습니다.

이 정보를 찾기 위해 데이터베이스에 있는 대량의 데이터를 검색하는 더 좋은 방법이 있습니까?우리는 Oracle 11g와 SQL Server 2008을 모두 사용하고 있으며 둘 다에서 검색을 수행해야 하므로 서버별 패러다임에서 벗어나고 싶습니다(단, T-SQL에서 PL로 변환하기 위해 일부 코드를 다시 작성해야 하는 경우도 있음). /SQL, 그 반대도 상관없습니다.)

해결책

많은 양의 텍스트를 검색하기 위해 SQL Server에서 전체 텍스트 검색을 살펴볼 수 있습니다.

여기서 더 읽어보세요 http://msdn.microsoft.com/en-us/library/ms142559.aspx

그러나 내가 올바르게 읽고 있다면 웹 검색 엔진이 웹 사이트와 웹 페이지를 스파이더하는 방식과 유사한 방식으로 데이터베이스를 스파이더링하고 싶을 것입니다.

여러 테이블에 걸쳐 결과를 가져오는 전체 텍스트 쿼리 집합을 사용할 수 있습니다.

다른 팁

Oracle은 RegExp_Like() 함수를 사용하여 정규식을 지원하며 시스템 메타데이터를 기반으로 필요한 코드 생성을 자동화하는 것은 매우 간단해야 합니다(예를 들어 특정 길이에 대한 모든 텍스트 열을 찾아 조건자에 포함). 정규식과 일치하는 행과 값을 찾으려면 해당 테이블을 다시 방문하세요.)실제로 너무 어려운 것 같지는 않습니다.이론적으로는 제한 열을 확인하여 정규 표현식과 일치하는 값이 삽입되는 것을 방지할 수 있지만 이는 과잉일 수 있습니다.

Oracle Text는 데이터베이스에 있는 큰 비트의 텍스트(예: PDF, HTML, TXT 또는 DOC)에서 단어/문구를 검색하는 데 적합합니다.일부 제한된 퍼지 검색이 있지만 정규식 자체는 그렇지 않습니다.

어떤 종류의 데이터를 찾고 있는지, 데이터베이스에 무엇이 있는지 실제로는 다루지 않습니다.Nessus는 귀하가 보안 문제를 찾고 있음을 나타내지만 "데이터 상관 관계"라는 제목은 완전히 다른 것을 암시합니다.

실제로 데이터 구조는 무엇을 어디서 찾아야 하는지에 대한 정보를 제공해야 합니다.이것이 바로 데이터베이스의 목적입니다. 즉, 접근성을 위해 데이터를 구조화하는 것입니다.CMS, 포럼 소프트웨어 또는 이와 유사한 것을 지원하는 데이터베이스는 다른 물고기 주전자가 될 것입니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow