تسمية أزواج القيمة والجداول حقيقة

https://stackoverflow.com/questions/298251

08-07-2019
|

سؤال

وأنا أعمل على مخطط نجمة لتحليل بيانات النموذج نشرها. الموقع الذي سيتم نشر بيانات النموذج إلى خارجيا في الواقع إلى الموقع استضافة النموذج، وذلك فقط من البيانات في شكل سوف تكون متاحة. انا ذاهب لإعطاء الخيار لتضمين بعض المعلومات المفيدة اضافية مع حقول مخفية، المرجع الأصلي، معرف جلسة الخ.

وسوف تكون قادرة على استخدام تعبيرات عادية لمطابقة أنواع معينة من البيانات وتسحبهم إلى أبعاد محددة على سبيل المثال الرموز البريدية.

ولدي حل للتعامل مع الطبيعة التعسفية للأبعاد، وليس واحدة كبيرة لكنها ستعمل.

والمشكلة التي لدي هي أن ليس لدي أي فكرة عما سيكون في الجدول حقيقة بلدي، وليس أحب هناك قيمة عددية لطيفة التي يمكنني تجميع. وبصرف النظر عن حقيقة أن "نعم هناك آخر شكل من الأشكال" التي تلبي هذه المعايير.

وأنا أتساءل إذا أنا تقترب من هذا في الطريق الصحيح؟ أنا باستخدام أداة خاطئة لهذه المهمة؟ أو هل أنا مجرد شيء مفقود؟

وسيمون.

ومزيد من التفاصيل:

وهناك مجالان من وظائف، وتصفية وظائف شكل تعتمد على معايير مثل بين اثنين من الطوابع. لكن حد كبير أي شيء هو لقمة سائغة من حيث التصفية. وبعد ذلك يتم استخدام وظائف النموذج المحدد لإنشاء ملف CSV للتصدير.

والمنطقة الرئيسية الأخرى هي تحليلات، ودراسة تحويل الإعلان إلى إنفاق العملاء يؤدي هو نقطة انطلاق واضحة. أيضا مفتوحة إلى حد ما انتهى ويعتمد على بيانات النموذج.

المحلول

وأنت لم تقم تصميم مخطط نجوم. كنت تصميم الجدول الكيان السمة ذات القيمة ، الذي لديه كل مشاكل كنت تحديد.

إذا كان لديك حقا أي فكرة عما البيانات الخاصة بك وسوف تبدو وكأنها، أي ما هو شكل وجود المجالات، وينبغي أن تستخدم أنواع البيانات لكل واحد، ثم قاعدة بيانات علائقية ليست هي الأداة المناسبة أن تستمر هذه المعلومات. محاولة XML أو YAML أو JSON. تلك هي منظم، ولكن دينامية، الأشكال. يمكنك إنشاء الفوقية على الطاير. يمكنك تخزين سبيل المثال شكل كامل في ملف أو في BLOB في قاعدة البيانات الخاصة بك.

وآخر التكنولوجيا الناشئة التي يمكن أن تدير الفوقية الديناميكى RDF ، مع لغة الاستعلام <ل أ href = "http://en.wikipedia.org/wiki/Resource_Description_Framework" يختلط = "نوفولو noreferrer"> SPARQL . السمسم هو مثال محرك البيانات الدلالي.

نصائح أخرى

وكل شيء على مايرام لديهم جداول الحقيقة مع عدم وجود قياسات - انهم فقط ودعا "الجداول حقيقة factless". ولكن لا يزال وضع عادة عمود ROW_COUNT هناك - على الرغم من أنه سيكون لديك دائما قيمة واحد - بسهولة إضافة الجداول الموجزة. وكنت قد ينتهي مضيفا قياسات أخرى في وقت لاحق - مثل قياس مشاعر المدى على سبيل المثال

وأنا لن تحصل قلقا جدا أن هذا لا تبدو وكأنها مثال تخزين 101 - وهناك الكثير من الحالات الزاوية حيث تحدث أشياء غريبة. هل يمكن أن يكون بالتأكيد FIELD_NAME وFIELD_VALUE كأعمدة، أو حتى مجرد FIELD_VALUE إذا لم يكن لديك FIELD_NAME. انه يعمل انها تعمل. ويوفر طن من المرونة.

ولكن كنت في عداد المفقودين على بعض الوظائف الهامة. منذ بند معين أو كائن يتم تقسيم حقا صفوف متعددة - سوف تصفية لغة الاستعلامات البنيويه نموذجية لا تعمل بشكل جيد. تحتاج عادة إلى سحب جميع الصفوف في القليل من التطبيقات التي يمكن تقييمها ككل - أو كتابة بعض معقد جدا مزود متعددة الخطوات حيث يمكنك إدراج النتائج المنطقية من كل تقييم صف إلى جدول مؤقت، ثم مجموعة من SESSION_ID (أو مهما كانت EQUIV)، ثم تقييم أخيرا لو / أو المنطق.

وثمة خيار آخر - هو السير في هذا الطريق، ولكن تتطور تدريجيا وظائف تحليل ETL الخاص بك حتى أنه بمرور الوقت يمكنك سحب بعض من هذه الاشياء في أكثر من الأبعاد التقليدية. ولعل هذا يصبح تنظيم أو جدول الخام، ولكن حاولت أن معظم التقارير أصابت المخطط الخاص بك أكثر تقليدية نجوم.

والخيار الأخير - النظر في قاعدة البيانات غير العلائقية. قد توفر وظائف أفضل لك شيئا أكثر توجها نحو ثيقة.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow