سؤال

لقد حصلت على الكثير من الخلية البيانات التي تحتاج إلى توليد التقارير.انها في معظمها البيانات التاريخية لذلك لن يتغير كثيرا ، ولكن يزن في 20-30 جيجا بسهولة و من المتوقع أن تنمو.لدي حاليا مجموعة من البرامج النصية php التي سوف تفعل بعض الاستعلامات المعقدة و إخراج csv و ملفات excel.أود أيضا أن استخدام بريس مع مرجعية الاستعلامات.أنا تحريرها يدويا تغيير المعلمات.حجم البيانات يتزايد عدد الناس الذين يحتاجون إلى الوصول إلى ذلك ينمو أيضا ، لذلك أنا جعل الوقت لتحسين هذا الوضع.

بدأت القراءة عن تخزين البيانات في اليوم الآخر ويبدو أن هذه المنطقة التي تتعلق بما يجب أن أفعل.قرأت بعض جيد المواد وأنا حتى الانتظار في كتاب.أعتقد أنني الحصول على مقبض على ماذا هذه الأنواع من النظم و ما هو ممكن.

إنشاء نظام الإبلاغ عن البيانات دائما على قائمة ما يجب عمله, ولكن حتى وقت قريب كنت أعتقد أنه سيكون على درجة عالية مكانة برمجة المشروع.منذ وأنا أعلم الآن تخزين البيانات هو شيء مشترك, أعتقد يجب أن يكون هناك نوع من التقارير/تخزين الإطارات المتاحة سهولة في التنمية.أود بكل سرور تخطي كتابة واجهات البرامج النصية على جدولة البريد الإلكتروني التقارير مثل والتمسك كتابة الاستفسارات و انشاء العلاقات.

لقد تم معظمها مصباح الرجل ولكن أنا لست فوق التبديل بين اللغات أو منصات.أنا فقط بحاجة إلى الحل أكثر قوة بلدي واحد من النصوص لا مقياس جيد.

إذا أين هو مكان جيد للبدء ؟

هل كانت مفيدة؟

المحلول

سوف أناقش بعض النقاط على {الميزانية الأعمال وظيفة الأداة ، الإطار الزمني} الطيف هناك.للراحة, دعونا اتبع العمارة تصور كنت مرتبطة في

    WikipediaDataWarehouseArticle

  • التشغيلية طبقة قاعدة البيانات
    مصدر بيانات مستودع البيانات تطبيع في مكان واحد فقط صيانة البيانات

  • طبقة الوصول إلى البيانات
    التحول من مصدر البيانات في المعلوماتية طبقة الوصول.
    ETL أدوات لاستخراج وتحويل وتحميل البيانات في مستودع الوقوع في هذه الطبقة.

  • إعلامية طبقة الوصول إلى
    • تقرير-تيسير بنية البيانات
          البيانات لا يتم الاحتفاظ هنا.هو مجرد انعكاس مصدر البيانات
    ومن ثم denormalized الهياكل (التي تحتوي مكررة ، ولكن بشكل منهجي البيانات المستمدة)
    وعادة ما تكون الأكثر فعالية هنا
    • أدوات الإبلاغ
    كيف كنت في الواقع تسمح للمستخدمين الوصول إلى البيانات
    • قبل المعلبة التقارير (بسيطة)
    • أكثر ديناميكية شريحة و الزهر طرق الوصول

البيانات الوصول إليها التقارير وتحليلها وأدوات إعداد التقارير وتحليل البيانات
تقع في هذه الطبقة.و Inmon-كيمبل الخلافات حول تصميم المنهجية ،
مناقشتها لاحقا في مقالة ويكيبيديا ، يجب أن نفعل مع هذه الطبقة.

  • البيانات الوصفية طبقة (يسهل التشغيل الآلي, منظمة, الخ)

لفة الخاص بك (low-end)
القليل جدا من الجيب التكلفة فقط وإذ تسلم بالحاجة إلى denormalized الهياكل يمكن شراء تلك التي لا تستخدم بعض الكفاءات

في المباراة (بعض النفقات المطلوبة)
أنت لا تحتاج إلى استخدام كل وظيفة من منبر الحق قبالة الخفافيش.
المنظمة البحرية الدولية ، ومع ذلك ، فإن كنت تريد أن تكون على المنصة التي تعرف تنمو في تنافسية وتعزيز بيئة BI, التي يبدو أن يكون واحدا من أربعة المشاريع الضخمة البائعين (رأيي)

  • مايكروسوفت (منصة لدينا 110 موظف شركة)
  • SAP
  • أوراكل
  • IBM

    BiMarketStateArticle

بلدي الشركة في هذه المرحلة ، باستخدام بعض ETL القدرة التي تقدمها خدمات تكامل SQL Server (SSIS) وبعض بديل استخدام المصدر المفتوح, ولكن في الممارسة العملية تتطلب رخصة Talend المنتج في "طبقة الوصول إلى البيانات" ، denormalized التقارير هيكل (نفذت تماما الأساسية في قاعدة بيانات SQL Server) و SQL Server Reporting Services (SSRS) إلى حد كبير أتمتة (على أساس المهارات الخاصة بك) إنتاج محددة مسبقا التقارير.علما أن SSRS "التقرير" هو مجرد (تحجيم) تكوين XML/المواصفات التي يحصل المقدمة في وقت التشغيل عن طريق SSRS المحرك.الخيارات مثل تصدير إلى ملف excel هي خيارات بسيطة.

الالتزام الجاد (بعض بشرية كبيرة الالتزام المطلوب)
إشعار أعلاه أن لدينا حتى الآن إلى الاستفادة من البيانات التعدين/ديناميكية تقطيع/التكعيب قدرات خدمات تحليل SQL Server.ونحن نعمل من أجل ذلك ، ولكن الآن تركز على تحسين نوعية البيانات التطهير في "طبقة الوصول إلى البيانات".

آمل أن يكون هذا يساعدك على الحصول على شعور من أين تبدأ في النظر.

نصائح أخرى

Pentaho وضعت معا مجموعة شاملة جدا من المنتجات. المنتجات هي "الحرة"، ولكن أن تكون على استعداد لبيع الثقيلة المعتاد بمجرد أكثر من مفترق معلومات تعريف بك.

ولم تتح لي فرصة لتمتد حقا لهم كما نحن متجر Microsoft من نهاية حزينة واحدة إلى أخرى.

وأعتقد أن عليك أن تحقق لأول مرة كيمبل وInmon ومعرفة ما اذا كنت ترغب في الاقتراب مستودع البيانات الخاصة بك بطريقة معينة. كيمبل، على وجه الخصوص، يحدد إطارا جيدا للغاية بالنسبة للنمذجة وبناء المستودع.

وهناك عدد من الأدوات التي تحاول جعل عملية تصميم وتنفيذ وإدارة / تشغيل مستودع البيانات وأنها تمتلك كل القوة ونقاط الضعف ونقاط السعر في كثير من الأحيان متباينة إلى حد كبير. تحت الأغطية كنت دائما ما يكون أفضل حالا إذا كان لديك معرفة جيدة من المبادئ warsehousing من كيمبل و / أو مخيمات Inmon.

وكذلك أدوات مثل Kalido وWherescape RED (التي لا شيء مماثل بطرق مختلفة جدا)، فإن العديد من منصات ETL دينا الآن جيد الدعم مدمجة للعمل حمار التنفيذ - مكونات SCD الخ، وتتبع النسب

وأفضل على الرغم من لعرض كل هذه كأدوات لاستخدامها في يد لك، حرفي، لأنها تجعل بعض الامور سهلة أسهل (أو حتى تافهة)، وبعض الأشياء الصعبة أسهل ولكن بعض الأشياء التي فقط في الحصول على أنها وسيلة ل IMHO؛) تعلم منهجية ومبادئ أولا والحصول على فهم جيد منهم وبعد ذلك سوف تعرف أي أدوات لتطبيق من طقم أدوات وعندما ...

ولم يتم تحديثه في كل حين ولكن هناك لطيفة تخزين البيانات / ETL روبي حزمة تسمى ActiveWarehouse .

ولكن أود أن تحقق من Pentaho المنتجات مثل نيك المذكورة في إجابة أخرى. وينبغي أن يسهل التعامل مع حجم البيانات لديك ويمكن أن توفر لك المزيد من الطرق لشريحة والزهر البيانات الخاصة بك مما كنت يمكن أن يتصور أي وقت مضى.

أفضل إطار يمكنك الحصول حاليا هو مرساة النمذجة.
قد تبدو معقدة جدا بسبب انها العامة والهيكل المدمج في القدرة على historize البيانات.
أيضا تقنية النمذجة يختلف تماما عن ERD.
ولكن كنت في نهاية المطاف مع sql البرمجية لتوليد جميع db الكائنات بما في ذلك 3NF آراء:

  • إدراج/تحديث التعامل معها من قبل المشغلات
  • الاستعلام أي نقطة/مجموعة في التاريخ
  • يمكنك تطبيق المطورين لن ترى الأساسية 6NF مرساة نموذج.

التكنولوجيا مفتوحة المصدر و في هذه اللحظة هو الذي لا يهزم.

إذا كنت قد AM سؤال قد تريد أن تسأل عن هذا الوسم .

وكيمبل هو أبسط طريقة لتخزين البيانات.

ونحن نستخدم تكنولوجيا المعلومات، لنقل البيانات حولها، لكنها لا تفعل أشياء مثل DW الفهرسة افتراضيا.
أنا أحب فكرة Wherescape RED، كأداة DW واستخدام خوادم MS SQL المرتبط تفادي الحاجة إلى أداة ETL.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top