ハドゥープ:間隔と結合

https://stackoverflow.com/questions/1832103

11-09-2019
|

質問

とても初心者です ハドゥープ 現在、キーが 2 つのデータソースを結合しようとしています。間隔 ([日付-開始/日付-終了]と言います)。例えば：

入力1:

20091001-20091002    A
20091011-20091104    B
20080111-20091103    C
(...)

入力2:

20090902-20091003    D
20081015-20091204    E
20040011-20050101    F
(...)

key1 が key2 と重複するすべてのレコードを検索したいと思います。Hadoopでも可能でしょうか？実装例はどこで見つかりますか?

ありがとう。

解決

Biostar で解決策が提供されました。 http://biostar.stackexchange.com/questions/8821

他のヒント

必要なのは、 hashCode() とquals() がやりたいことを実行するキークラスだけだと思います。A が B と重なる問題が発生する可能性があると思います (つまり、A.equals(B) == true)、B は C と重なりますが、C は A と重なりません。このようなquals()メソッドを実装すると、おそらく奇妙な動作が発生するでしょう。

基本的に、クエリを刺すようなことをしたいのです。セグメントツリー (すなわち、間隔 (p1.start、p1.end) の重複するすべての間隔 E について、p1.start および p1.end のスタビングクエリを実行します。

しかし基本的に、いいえ、あなたの質問に対する正しい答えはわかりません。しかし、おそらく次のクエリ「セグメントツリー」hadoop 始めましょう。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow