이름 값 쌍 및 사실 테이블

https://stackoverflow.com/questions/298251

08-07-2019
|

문제

게시 된 양식 데이터 분석을 위해 Star 스키마를 작업하고 있습니다. 양식 데이터에 게시 될 사이트는 실제로 양식을 호스팅하는 사이트 외부에 있으므로 양식의 데이터 만 사용할 수 있습니다. 숨겨진 필드, 원본 참조 자, 세션 ID 등에 추가 유용한 정보를 포함시킬 수있는 옵션을 제공 할 것입니다.

특정 데이터 유형에 맞게 정규식을 사용하여 우편 번호 (예 : 우편 번호)로 끌어 당길 수 있습니다.

나는 차원의 임의의 특성을 다루는 솔루션이 있습니다. 큰 것이 아니라 효과가있을 것입니다.

내가 가지고있는 문제는 내 사실 테이블에 무엇이 있을지 전혀 모른다는 것입니다. 집계 할 수있는 좋은 수치 값이있는 것과는 다릅니다. "예, 양식 게시물이있다"는 사실 외에도 이러한 기준을 충족시킵니다.

내가 올바른 방식으로 이것에 접근하고 있는지 궁금합니다. 작업에 잘못된 도구를 사용하고 있습니까? 아니면 그냥 뭔가 빠졌나요?

사이먼.

자세한 내용 :

기능의 두 가지 영역에는 두 타임 스탬프 사이의 기준에 따라 양식 게시물을 필터링합니다. 그러나 필터링 측면에서 거의 모든 것이 손을 잡고 있습니다. 그런 다음 선택한 양식 게시물을 사용하여 내보내기에 대한 CSV 파일을 생성합니다.

다른 주요 영역은 분석이며, 광고 지출을 고객 리드로 전환하는 것은 분명한 출발점입니다. 또한 다소 개방형이 끝나고 양식 데이터에 따라 다릅니다.

해결책

당신은 스타 스키마를 설계하지 않습니다. 당신은 디자인하고 있습니다 엔티티 부사장 값 식별하는 모든 문제가있는 테이블.

데이터가 어떻게 보일지 전혀 모른다면, 즉 어떤 형태의 필드가 존재하고 각각의 데이터 유형에 어떤 데이터 유형이 사용되어야하는지, 관계형 데이터베이스는 정보를 지속 할 수있는 올바른 도구가 아닙니다. XML 또는 YAML 또는 JSON을 사용해보십시오. 그것들은 구조적이지만 역동적 인 형식입니다. 메타 데이터를 즉시 설정할 수 있습니다. 전체 양식 인스턴스를 파일에 또는 데이터베이스의 블로브에 저장할 수 있습니다.

동적 메타 데이터를 관리 할 수있는 또 다른 신흥 기술은 다음과 같습니다 RDF, 쿼리 언어로 sparql. 참깨 시맨틱 데이터 엔진의 예입니다.

다른 팁

측정이없는 사실 테이블을 갖는 것은 괜찮습니다. 단지 "사실없는 사실 테이블"이라고합니다. 그러나 일반적으로 요약 테이블을 쉽게 추가하기 위해 항상 하나의 값이 있지만 row_count 열을 거기에 넣습니다. 그리고 예를 들어 용어의 감정 측정과 같이 나중에 다른 측정을 추가 할 수 있습니다.

그리고 나는 이것이 창고 101 예처럼 보이지 않는다고 걱정하지 않을 것입니다. 이상한 일이 일어나는 모퉁이 케이스가 많이 있습니다. Field_name & Field_value를 열로 할 수 있거나 Field_name이없는 경우 Field_value 만 사용할 수 있습니다. 작동합니다. 그리고 그것은 많은 유연성을 제공합니다.

그러나 당신은 몇 가지 중요한 기능을 놓치고 있습니다. 주어진 항목이나 객체가 실제로 여러 행으로 분할되므로 일반적인 SQL 필터링은 잘 작동하지 않습니다. 일반적으로 모든 행을 전체로 평가할 수있는 작은 앱으로 끌어 올리거나 각 행 평가의 부울 결과를 온도 테이블에 삽입 한 다음 Session_id (또는 그룹화) 매우 복잡한 멀티 스텝 SQL을 작성해야합니다. 그런 다음, 마침내 평가 및/또는 논리를 평가하십시오.

또 다른 옵션은이 경로를 가야하지만 점차적으로 ETL 구문 분석 기능을 개발하여 시간이 지남에 따라이 물건의 일부를 더 전통적인 차원으로 끌어낼 수 있습니다. 아마도 이것은 준비 또는 원시 테이블이되지만 대부분의 보고서가 더 전통적인 스타 스키마를 치도록 노력합니다.

마지막 옵션 - 비 관계형 데이터베이스를 고려하십시오. 더 많은 문서 지향적 인 것이 더 나은 기능을 제공 할 수 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow