質問

とても初心者です ハドゥープ 現在、キーが 2 つのデータ ソースを結合しようとしています。 間隔 ([日付-開始/日付-終了]と言います)。例えば:

入力1:

20091001-20091002    A
20091011-20091104    B
20080111-20091103    C
(...)

入力2:

20090902-20091003    D
20081015-20091204    E
20040011-20050101    F
(...)

key1 が key2 と重複するすべてのレコードを検索したいと思います。Hadoopでも可能でしょうか?実装例はどこで見つかりますか?

ありがとう。

役に立ちましたか?

解決

Biostar で解決策が提供されました。 http://biostar.stackexchange.com/questions/8821

他のヒント

必要なのは、 hashCode() とquals() がやりたいことを実行するキークラスだけだと思います。A が B と重なる問題が発生する可能性があると思います (つまり、A.equals(B) == true)、B は C と重なりますが、C は A と重なりません。このようなquals()メソッドを実装すると、おそらく奇妙な動作が発生するでしょう。

基本的に、クエリを刺すようなことをしたいのです。 セグメントツリー (すなわち、間隔 (p1.start、p1.end) の重複するすべての間隔 E について、p1.start および p1.end のスタビング クエリを実行します。

しかし基本的に、いいえ、あなたの質問に対する正しい答えはわかりません。しかし、おそらく次のクエリ 「セグメントツリー」hadoop 始めましょう。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top