سؤال

أنا جديد جدا ل هادوب وأنا أحاول حاليا الانضمام إلى مصادر البيانات التي يكون فيها المفتاح فترة (قل [تاريخ البدء / التاريخ]). علي سبيل المثال:

Input1:

20091001-20091002    A
20091011-20091104    B
20080111-20091103    C
(...)

Input2:

20090902-20091003    D
20081015-20091204    E
20040011-20050101    F
(...)

أرغب في العثور على جميع السجلات حيث يتداخل المفتاح 1 في المفتاح 2. هل من الممكن مع هيدوب؟ أين يمكنني أن أجد مثالا بالتنفيذ؟

شكرا.

هل كانت مفيدة؟

المحلول

تم إعطاء حل على BIOSTAR: http://biostar.stackexchange.com/Questions/8821.

نصائح أخرى

أعتقد أن كل ما هو مطلوب هو فئة رئيسية حيث يكون hashcode () ويساوي () القيام بما تريد القيام به. أظن أنك قد تواجه مشكلة حيث تتداخل B (أي A. Aleaquales (B) == TRUE)، B تتداخل ج، ولكن C لا يتداخل أ. إذا قمت بتنفيذ طريقة تساوي هذه ()، فسوف ربما الحصول على سلوك غريب.

أساسا، تريد أن تفعل شيئا مثل استفسارات الطعن على شجرة القطاع (أي لجميع الفواصل الزمنية المتداخلة هاء لفترة فاصل (p1.start، p1.end)، قم بإجراء استعلامات الطعن ل P1.Start و P1.end).

ولكن في الأساس، لا، أنا لا أعرف إجابة صحيحة على سؤالك. ولكن ربما استفسار ل "شجرة الجزء" هيدوب سوف تبدأ في البدء.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top