Domanda

Sto costruendo una Hadoop (0.20.1) lavoro MapReduce che utilizza HBase (0.20.1) sia come fonte dei dati e lavandino dati. Vorrei scrivere il lavoro in Python che mi ha richiesto di utilizzare Hadoop-0.20.1-streaming.jar per lo streaming di dati da e verso i miei script Python. Questo funziona bene se l'origine dati / lavandino sono file HDFS.

Il supporto Hadoop streaming da / per HBase per MapReduce?

È stato utile?

Soluzione

Questo sembra fare quello che voglio, ma non è parte della distribuzione Hadoop. Eventuali altri suggerimenti o commenti ancora benvenuti.

http://github.com/wanpark/hadoop-hbase-streaming

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top