문제

보고서를 생성 해야하는 MySQL 데이터가 많이 있습니다. 그것은 대부분 역사적인 데이터이므로 크게 변하지 않지만 무게는 20-30 기가 바이트로 쉽게 무게를 띠며 성장할 것으로 예상됩니다. 현재 복잡한 쿼리 및 출력 CSV 및 Excel 파일을 수행 할 PHP 스크립트 모음이 있습니다. 또한 북마크 된 쿼리와 함께 phpmyadmin을 사용합니다. 매개 변수를 변경하기 위해 수동으로 편집합니다. 데이터의 양이 커지고 있으며 데이터에 접근 해야하는 사람들의 수도 증가하고 있기 때문에이 상황을 개선 할 시간을 갖고 있습니다.

나는 다른 날에 데이터웨어 하우스에 대해 읽기 시작했고 이것이 내가해야 할 일과 관련된 영역 인 것 같습니다. 나는 읽었다 약간 좋은 조항 그리고 책을 기다리고 있습니다. 나는 이런 종류의 시스템이 무엇을하고 가능한 일을 처리하고 있다고 생각합니다.

내 데이터에 대한보고 시스템을 작성하는 것은 항상 TODO 목록에 있었지만 최근까지 틈새 프로그램 벤처가 될 것이라고 생각했습니다. 이제 데이터웨어 하우징이 일반적이라는 것을 알고 있기 때문에 개발을 용이하게 할 수있는 일종의보고/창고 프레임이 있어야한다고 생각합니다. 나는 기꺼이 인터페이스와 스크립트를 작성하여 보고서와 이메일 보고서 등을 작성하고 쿼리 작성 및 관계 설정을 고수합니다.

나는 대부분 램프 녀석 이었지만 언어 나 플랫폼을 바꾸는 것 이상은 아닙니다. 내 오프 스크립트가 잘 확장되지 않기 때문에 더 강력한 솔루션이 필요합니다.

그래서 시작하기에 좋은 곳은 어디입니까?

도움이 되었습니까?

해결책

{예산, 비즈니스 유틸리티 기능, 시간 프레임} 스펙트럼에 대한 몇 가지 사항에 대해 논의하겠습니다. 편의를 위해, 당신이 연결 한 아키텍처 개념화를 따르합시다.

    Wikipediadatawarehousearticle

  • 운영 데이터베이스 계층
    데이터웨어 하우스의 소스 데이터 - 한 곳에서 정규화 된 데이터 유지 관리

  • 데이터 액세스 계층
    소스 데이터를 정보 액세스 계층으로 변환합니다.
    ETL 도구를 추출, 변환, 데이터를 창고에로드하는 것이이 레이어로 떨어집니다.

  • 정보 액세스 계층
    • 보고서를 제정하는 데이터 구조
          여기에는 데이터가 유지되지 않습니다. 그것은 단지 소스 데이터를 반영하는 것입니다
    따라서, 비정상화 된 구조 (복제본이 포함되지만 체계적으로 파생 된 데이터)
    일반적으로 여기에서 가장 효과적입니다
    •보고 도구
    실제로 사용자가 데이터에 액세스 할 수있는 방법
    • 사전 진료 보고서 (간단함)
    •보다 역동적 인 슬라이스 앤-다이드 액세스 방법

보고 및 분석을 위해 액세스 한 데이터 및 데이터보고 및 분석 도구
이 레이어에 빠지십시오. 그리고 디자인 방법론에 대한 Inmon-Kimball 차이,
Wikipedia 기사에서 나중에 논의 된 것은이 계층과 관련이 있습니다.

  • 메타 데이터 레이어 (자동화, 조직 등을 용이하게합니다)

나만의 롤 (로우 엔드)
본인 부담 비용이 거의 들지 않기 때문에, 비정규 화 된 구조물의 필요성 만 인식하면 일부 효율성을 사용하지 않는 구조물을 구입할 수 있습니다.

볼 게임에 들어갑니다 (일부 지출이 필요)
박쥐에서 바로 플랫폼의 모든 기능을 사용할 필요는 없습니다.
그러나 IMO, 당신은 당신이 성장할 것이라는 플랫폼에 있기를 원하며, 경쟁이 치열하고 통합하는 BI 환경에서 4 개의 기업 메가 벤더 중 하나 인 것 같습니다 (내 의견).

  • Microsoft (110 명의 직원 회사의 플랫폼)
  • 수액
  • 신탁
  • IBM

    bimarketstateicle

내 회사는이 단계에 있으며, SQL Server Integration Services (SSIS)가 제공하는 일부 ETL 기능과 오픈 소스의 대체 사용량을 사용하지만 실습 라이센스는 "데이터 액세 (기본 SQL Server 데이터베이스에서 완전히 구현 됨) 및 SQL Server Reporting Services (SSRS)는 사전 지정된 보고서의 생산을 크게 자동화 (기술을 기준으로)합니다. SSRS "보고서"는 SSRS 엔진을 통해 런타임에 렌더링되는 (확장 가능한) XML 구성/사양 일뿐입니다. Excel 파일로 내보내는 것과 같은 선택은 간단한 옵션입니다.

진지한 헌신 (일부 중요한 인간 헌신이 필요)
위의 점검은 아직 SQL Server Analysis Services의 데이터 마이닝/동적 슬라이싱/다이닝 기능을 활용하지 않았다는 점에 주목하십시오. 우리는이를 향해 노력하고 있지만 이제는 "데이터 액세스 계층"에서 데이터 정리의 품질을 향상시키는 데 중점을 두었습니다.

이것이 어디에서 찾아보기 시작 해야하는지에 대한 감각을 얻는 데 도움이되기를 바랍니다.

다른 팁

펜타 호 꽤 포괄적 인 제품 제품군을 구성했습니다. 제품은 "무료"이지만 식별 정보를 통해 포크되면 일반적인 무거운 판매를 준비하십시오.

우리가 한 슬픈 끝에서 다른 쪽 끝까지 마이크로 소프트 상점이기 때문에 나는 실제로 그들을 스트레칭 할 기회가 없었습니다.

먼저 Kimball과 Inmon을 확인하고 특정 방식으로 데이터웨어 하우스에 접근하고 싶은지 확인해야한다고 생각합니다. 특히 Kimball은 창고의 모델링 및 건설을위한 매우 좋은 프레임 워크를 제시합니다.

데이터웨어 하우스를 설계, 구현 및 관리/운영하는 프로세스를 만들려고하는 많은 도구가 있으며 각각 강점과 약점과 종종 가격이 크게 다릅니다. 커버 아래에서 김볼 및/또는 몬몬 캠프의 전쟁 원칙에 대한 좋은 지식이 있다면 항상 최선을 다할 것입니다.

Kalido 및 Wherescape Red와 같은 도구 (매우 다른 방식으로 유사한 일을하는)와 같은 도구뿐만 아니라 많은 ETL 플랫폼은 이제 구현의 당나귀 작업 (SCD 구성 요소 등) 및 계보 추적을 잘 지원합니다.

이 모든 것들이 당신의 손에 사용되는 도구, 장인, 장인, 그들은 더 쉬운 일을 더 쉽게 (또는 심지어 사소한), 일부 어려운 일을 더 쉽게 만들지 만, 그들이 단지 그들이 얻는 것들이 imho의 방식으로 얻는 것입니다.) 방법론과 원리를 먼저 배우고 그것들을 잘 이해하면 키트 백에서 어떤 도구를 적용 할 것인지 알게 될 것입니다.

한동안 업데이트되지 않았지만 멋진 데이터웨어 하우징/ETL Ruby 패키지가 있습니다. ActiveWarehouse.

그러나 나는 그것을 확인할 것이다 Pentaho 제품 Nick은 다른 대답에서 언급했습니다. 그것은 당신이 가진 데이터의 양을 쉽게 처리해야하며, 당신이 상상했던 것보다 데이터를 자르고 주사을 수있는 더 많은 방법을 제공 할 수 있습니다.

현재 얻을 수있는 최고의 프레임 워크는입니다 앵커 모델링.
일반적인 구조와 데이터를 역사화 할 수있는 내장 기능 때문에 상당히 복잡해 보일 수 있습니다.
또한 모델링 기술은 ERD와 상당히 다릅니다.
그러나 3NF 뷰를 포함한 모든 DB 객체를 생성하기 위해 SQL 코드로 끝납니다.

  • 트리거로 처리/업데이트를 삽입하십시오
  • 역사상 모든 지점/범위를 쿼리하십시오
  • 응용 프로그램 개발자는 기본 6NF 앵커 모델을 보지 못합니다.

이 기술은 공개적이며 현재는 타의 추종을 불허합니다.

질문이 있다면 해당 태그를 물어보고 싶을 수도 있습니다. .

Kimball은 데이터웨어 하우징을위한 간단한 방법입니다.

우리는 데이터를 이동하기 위해 Informatica를 사용하지만 기본적으로 인덱싱과 같은 DW를 수행하지 않습니다.
DW 도구로서 wherescape red의 아이디어를 좋아하고 MS SQL의 링크 된 서버를 사용하여 ETL 도구의 필요성을 제거합니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top