데이터웨어 하우스 프레임 워크가 있습니까?
-
03-07-2019 - |
문제
보고서를 생성 해야하는 MySQL 데이터가 많이 있습니다. 그것은 대부분 역사적인 데이터이므로 크게 변하지 않지만 무게는 20-30 기가 바이트로 쉽게 무게를 띠며 성장할 것으로 예상됩니다. 현재 복잡한 쿼리 및 출력 CSV 및 Excel 파일을 수행 할 PHP 스크립트 모음이 있습니다. 또한 북마크 된 쿼리와 함께 phpmyadmin을 사용합니다. 매개 변수를 변경하기 위해 수동으로 편집합니다. 데이터의 양이 커지고 있으며 데이터에 접근 해야하는 사람들의 수도 증가하고 있기 때문에이 상황을 개선 할 시간을 갖고 있습니다.
나는 다른 날에 데이터웨어 하우스에 대해 읽기 시작했고 이것이 내가해야 할 일과 관련된 영역 인 것 같습니다. 나는 읽었다 약간 좋은 조항 그리고 책을 기다리고 있습니다. 나는 이런 종류의 시스템이 무엇을하고 가능한 일을 처리하고 있다고 생각합니다.
내 데이터에 대한보고 시스템을 작성하는 것은 항상 TODO 목록에 있었지만 최근까지 틈새 프로그램 벤처가 될 것이라고 생각했습니다. 이제 데이터웨어 하우징이 일반적이라는 것을 알고 있기 때문에 개발을 용이하게 할 수있는 일종의보고/창고 프레임이 있어야한다고 생각합니다. 나는 기꺼이 인터페이스와 스크립트를 작성하여 보고서와 이메일 보고서 등을 작성하고 쿼리 작성 및 관계 설정을 고수합니다.
나는 대부분 램프 녀석 이었지만 언어 나 플랫폼을 바꾸는 것 이상은 아닙니다. 내 오프 스크립트가 잘 확장되지 않기 때문에 더 강력한 솔루션이 필요합니다.
그래서 시작하기에 좋은 곳은 어디입니까?
해결책
{예산, 비즈니스 유틸리티 기능, 시간 프레임} 스펙트럼에 대한 몇 가지 사항에 대해 논의하겠습니다. 편의를 위해, 당신이 연결 한 아키텍처 개념화를 따르합시다.
운영 데이터베이스 계층
데이터웨어 하우스의 소스 데이터 - 한 곳에서 정규화 된 데이터 유지 관리데이터 액세스 계층
소스 데이터를 정보 액세스 계층으로 변환합니다.
ETL 도구를 추출, 변환, 데이터를 창고에로드하는 것이이 레이어로 떨어집니다.정보 액세스 계층
• 보고서를 제정하는 데이터 구조
여기에는 데이터가 유지되지 않습니다. 그것은 단지 소스 데이터를 반영하는 것입니다
따라서, 비정상화 된 구조 (복제본이 포함되지만 체계적으로 파생 된 데이터)
일반적으로 여기에서 가장 효과적입니다
•보고 도구
실제로 사용자가 데이터에 액세스 할 수있는 방법
• 사전 진료 보고서 (간단함)
•보다 역동적 인 슬라이스 앤-다이드 액세스 방법
보고 및 분석을 위해 액세스 한 데이터 및 데이터보고 및 분석 도구
이 레이어에 빠지십시오. 그리고 디자인 방법론에 대한 Inmon-Kimball 차이,
Wikipedia 기사에서 나중에 논의 된 것은이 계층과 관련이 있습니다.
- 메타 데이터 레이어 (자동화, 조직 등을 용이하게합니다)
나만의 롤 (로우 엔드)
본인 부담 비용이 거의 들지 않기 때문에, 비정규 화 된 구조물의 필요성 만 인식하면 일부 효율성을 사용하지 않는 구조물을 구입할 수 있습니다.
볼 게임에 들어갑니다 (일부 지출이 필요)
박쥐에서 바로 플랫폼의 모든 기능을 사용할 필요는 없습니다.
그러나 IMO, 당신은 당신이 성장할 것이라는 플랫폼에 있기를 원하며, 경쟁이 치열하고 통합하는 BI 환경에서 4 개의 기업 메가 벤더 중 하나 인 것 같습니다 (내 의견).
- Microsoft (110 명의 직원 회사의 플랫폼)
- 수액
- 신탁
- IBM
내 회사는이 단계에 있으며, SQL Server Integration Services (SSIS)가 제공하는 일부 ETL 기능과 오픈 소스의 대체 사용량을 사용하지만 실습 라이센스는 "데이터 액세 (기본 SQL Server 데이터베이스에서 완전히 구현 됨) 및 SQL Server Reporting Services (SSRS)는 사전 지정된 보고서의 생산을 크게 자동화 (기술을 기준으로)합니다. SSRS "보고서"는 SSRS 엔진을 통해 런타임에 렌더링되는 (확장 가능한) XML 구성/사양 일뿐입니다. Excel 파일로 내보내는 것과 같은 선택은 간단한 옵션입니다.
진지한 헌신 (일부 중요한 인간 헌신이 필요)
위의 점검은 아직 SQL Server Analysis Services의 데이터 마이닝/동적 슬라이싱/다이닝 기능을 활용하지 않았다는 점에 주목하십시오. 우리는이를 향해 노력하고 있지만 이제는 "데이터 액세스 계층"에서 데이터 정리의 품질을 향상시키는 데 중점을 두었습니다.
이것이 어디에서 찾아보기 시작 해야하는지에 대한 감각을 얻는 데 도움이되기를 바랍니다.
다른 팁
펜타 호 꽤 포괄적 인 제품 제품군을 구성했습니다. 제품은 "무료"이지만 식별 정보를 통해 포크되면 일반적인 무거운 판매를 준비하십시오.
우리가 한 슬픈 끝에서 다른 쪽 끝까지 마이크로 소프트 상점이기 때문에 나는 실제로 그들을 스트레칭 할 기회가 없었습니다.
먼저 Kimball과 Inmon을 확인하고 특정 방식으로 데이터웨어 하우스에 접근하고 싶은지 확인해야한다고 생각합니다. 특히 Kimball은 창고의 모델링 및 건설을위한 매우 좋은 프레임 워크를 제시합니다.
데이터웨어 하우스를 설계, 구현 및 관리/운영하는 프로세스를 만들려고하는 많은 도구가 있으며 각각 강점과 약점과 종종 가격이 크게 다릅니다. 커버 아래에서 김볼 및/또는 몬몬 캠프의 전쟁 원칙에 대한 좋은 지식이 있다면 항상 최선을 다할 것입니다.
Kalido 및 Wherescape Red와 같은 도구 (매우 다른 방식으로 유사한 일을하는)와 같은 도구뿐만 아니라 많은 ETL 플랫폼은 이제 구현의 당나귀 작업 (SCD 구성 요소 등) 및 계보 추적을 잘 지원합니다.
이 모든 것들이 당신의 손에 사용되는 도구, 장인, 장인, 그들은 더 쉬운 일을 더 쉽게 (또는 심지어 사소한), 일부 어려운 일을 더 쉽게 만들지 만, 그들이 단지 그들이 얻는 것들이 imho의 방식으로 얻는 것입니다.) 방법론과 원리를 먼저 배우고 그것들을 잘 이해하면 키트 백에서 어떤 도구를 적용 할 것인지 알게 될 것입니다.
한동안 업데이트되지 않았지만 멋진 데이터웨어 하우징/ETL Ruby 패키지가 있습니다. ActiveWarehouse.
그러나 나는 그것을 확인할 것이다 Pentaho 제품 Nick은 다른 대답에서 언급했습니다. 그것은 당신이 가진 데이터의 양을 쉽게 처리해야하며, 당신이 상상했던 것보다 데이터를 자르고 주사을 수있는 더 많은 방법을 제공 할 수 있습니다.
현재 얻을 수있는 최고의 프레임 워크는입니다 앵커 모델링.
일반적인 구조와 데이터를 역사화 할 수있는 내장 기능 때문에 상당히 복잡해 보일 수 있습니다.
또한 모델링 기술은 ERD와 상당히 다릅니다.
그러나 3NF 뷰를 포함한 모든 DB 객체를 생성하기 위해 SQL 코드로 끝납니다.
- 트리거로 처리/업데이트를 삽입하십시오
- 역사상 모든 지점/범위를 쿼리하십시오
- 응용 프로그램 개발자는 기본 6NF 앵커 모델을 보지 못합니다.
이 기술은 공개적이며 현재는 타의 추종을 불허합니다.
질문이 있다면 해당 태그를 물어보고 싶을 수도 있습니다. 앵커 모델링.
Kimball은 데이터웨어 하우징을위한 간단한 방법입니다.
우리는 데이터를 이동하기 위해 Informatica를 사용하지만 기본적으로 인덱싱과 같은 DW를 수행하지 않습니다.
DW 도구로서 wherescape red의 아이디어를 좋아하고 MS SQL의 링크 된 서버를 사용하여 ETL 도구의 필요성을 제거합니다.