質問
とても初心者です ハドゥープ 現在、キーが 2 つのデータ ソースを結合しようとしています。 間隔 ([日付-開始/日付-終了]と言います)。例えば:
入力1:
20091001-20091002 A
20091011-20091104 B
20080111-20091103 C
(...)
入力2:
20090902-20091003 D
20081015-20091204 E
20040011-20050101 F
(...)
key1 が key2 と重複するすべてのレコードを検索したいと思います。Hadoopでも可能でしょうか?実装例はどこで見つかりますか?
ありがとう。
解決
Biostar で解決策が提供されました。 http://biostar.stackexchange.com/questions/8821
他のヒント
必要なのは、 hashCode() とquals() がやりたいことを実行するキークラスだけだと思います。A が B と重なる問題が発生する可能性があると思います (つまり、A.equals(B) == true)、B は C と重なりますが、C は A と重なりません。このようなquals()メソッドを実装すると、おそらく奇妙な動作が発生するでしょう。
基本的に、クエリを刺すようなことをしたいのです。 セグメントツリー (すなわち、間隔 (p1.start、p1.end) の重複するすべての間隔 E について、p1.start および p1.end のスタビング クエリを実行します。
しかし基本的に、いいえ、あなたの質問に対する正しい答えはわかりません。しかし、おそらく次のクエリ 「セグメントツリー」hadoop 始めましょう。
所属していません StackOverflow