أين هي بنية بنتاهو كيتل؟
سؤال
أين يمكنني أن أجد بنية بنتاهو غلاية؟ أنا أبحث عن ويكي قصير ، وثيقة تصميم ، أو منشور مدونة ، وأي شيء لإعطاء نظرة عامة جيدة على كيفية عمل الأشياء. لا يُقصد بهذا السؤال إلى "كيفية" بدء تشغيل المرشدين ، بل هو رؤية جيدة في التكنولوجيا و هندسة معمارية.
أسئلة محددة لدي:
- كيف يتدفق البيانات بين الخطوات؟ يبدو كل شيء في الذاكرة - هل أنا محق في هذا؟
- هل ما سبق صحيح حول التحولات المختلفة أيضًا؟
- كيف ال تجميع خطوات تنفذ؟
- أي إرشادات أداء محددة لاستخدامه؟
- هل مهمة FTP موثوقة وأداء؟
- أي "دوس ولا" لا "؟
المحلول
يرى هذا PDF.
نصائح أخرى
- كيف يتدفق البيانات بين الخطوات؟ يبدو كل شيء في الذاكرة - هل أنا محق في هذا؟
تدفق البيانات يعتمد على الصف. للتحول ، كل خطوة تنتج "tuple" أو صف مع الحقول. كل حقل هو زوج من البيانات وبيانات التعريف. كل خطوة لديها المدخلات والمخرجات. تأخذ الخطوة صفوفًا من الإدخال ، وتعديل الصفوف وإرسال الصفوف إلى المخرجات. بالنسبة لمعظم الحالات ، كل المعلومات في الذاكرة. لكن. تقرأ الخطوات البيانات في دفق الموضة (مثل JDBC أو غيرها) - لذلك عادة في الذاكرة جزء من البيانات فقط من دفق.
- هل ما سبق صحيح حول التحولات المختلفة أيضًا؟
هناك مفهوم "الوظيفة" ومفهوم "التحول". كل مكتوبة أعلاه صحيحة في الغالب للتحول. في الغالب - يعني أن التحول يمكن أن يحتوي على خطوات مختلفة تمامًا ، يمكن لبعضها - مثل خطوات جمع - محاولة جمع جميع البيانات من دفق. Jobs - هي وسيلة لإجراء بعض الإجراءات التي لا تتبع مفهوم "البث" - مثل إرسال البريد الإلكتروني على النجاح ، وتحميل بعض الملفات من Net ، وتنفيذ تحويلات مختلفة واحدة تلو الأخرى.
- كيف يتم تنفيذ خطوات التجميع؟
يعتمد فقط على خطوة معينة. عادةً كما ذكر أعلاه - قد تحاول جمع الخطوات جمع جميع البيانات من Stream - وجود ذلك - سببًا لاستثناءات OutofMemory. إذا كانت البيانات كبيرة جدًا - فكر في استبدال خطوات "جمع" بنهج مختلف لمعالجة البيانات (على سبيل المثال ، استخدم الخطوات التي لا تجمع جميع البيانات).
- أي إرشادات أداء محددة لاستخدامه؟
كثيرا من. يعتمد على خطوات التحول يتكون ، مصادر البيانات المستخدمة. سأحاول التحدث عن السيناريو الدقيق بدلاً من الإرشادات العامة.
- هل مهمة FTP موثوقة وأداء؟
بقدر ما أتذكر أن FTP مدعوم بتنفيذ EDTFTP ، وقد يكون هناك بعض المشكلات مع تلك الخطوات مثل - بعض المعلمات التي لم يتم حفظها ، أو وكيل HTTP -FTP لا يعمل أو غيرها. أود أن أقول إن الغلاية بشكل عام موثوق بها وموثوقة - ولكن بالنسبة لبعض السيناريوهات التي لا تستخدم بشكل شائع - لا يمكن أن يكون الأمر كذلك.
- أي "دوس ولا" لا "؟
أود أن أقول إن DO - هو فهم أداة قبل البدء في استخدامها بشكل مكثف. كما هو مذكور في هذه المناقشة - هناك بعض الأدب حول تكامل بيانات Kettle/Pentaho يمكنك تجربة البحث عنه في مواقع محددة.
واحدة من مزايا تكامل بيانات Pentaho/غلاية هو مجتمع كبير نسبيا يمكنك طلب جوانب محددة.