riduttori disponibili in MapReduce elastico

https://stackoverflow.com/questions/1946953

20-09-2019
|

Domanda

Spero che sto chiedendo questo nel modo giusto. Sto imparando il mio modo per aggirare Elastic MapReduce e ho visto numerosi riferimenti alla riduttore "aggregato" che può essere utilizzato con "streaming" dei flussi di lavoro.

In "Introduzione ad Amazon Elastic MapReduce" di Amazon PDF si afferma "Amazon Elastic MapReduce ha un riduttore predefinito chiamato aggregrate"

Quello che vorrei sapere è: ci sono altri riduttori di default availiable

ho capito che posso scrivere il mio riduttore, ma io non voglio finire di scrivere qualcosa che già esiste e "reinventare la ruota" perché sono sicuro che la mia ruota non sarà buono come l'originale.

Soluzione

Sono in una situazione simile. Ne deduco risultati di Google, ecc che la risposta in questo momento è "No, non ci sono altri riduttori di default in Hadoop", che tipo di fa schifo, perché sarebbe ovviamente utile avere riduttori di default come, ad esempio, "medio" o "mediana "quindi non c'è bisogno di scrivere il proprio.

http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/mapred/lib/aggregate/package-summary.html mostra un certo numero di utilizzi aggregatore utili, ma non riesco a trovare documentazione per come accedere altre funzionalità che la somma chiave / valore molto di base descritto nella documentazione e nella risposta di Erik Forsberg. Forse questa funzionalità viene esposta solo nella API Java, che io non voglio usare.

Per inciso, io sono la risposta di paura Erik Forsberg non è una buona risposta a questa domanda particolare. Un'altra domanda per la quale potrebbe essere una soluzione utile può essere costruito, ma non è ciò che il PO sta chiedendo.

Altri suggerimenti

Il riduttore a cui si riferiscono è documentato qui:

http : //hadoop.apache.org/docs/stable/api/org/apache/hadoop/mapred/lib/aggregate/package-summary.html

Questo è un riduttore che è incorporata nel programma di utilità di streaming. Esso fornisce un modo semplice di fare il calcolo comune scrivendo un mapper che le chiavi di output che sono formattati in modo speciale.

Ad esempio, se il vostro uscite Mapper:

LongValueSum:id1\t12
LongValueSum:id1\t13
LongValueSum:id2\t1
UniqValueCount:id3\tval1
UniqValueCount:id3\tval2

Il riduttore calcola la somma di ogni LongValueSum, e contare i valori distinti per UniqValueCount. L'uscita del riduttore sarà quindi:

id1\t25
id2\t12
id3\t2

I riduttori e combinatori in questo pacchetto sono molto veloce rispetto alla corsa combinatori streaming e riduttori, in modo da utilizzare il pacchetto aggregato è comodo e veloce.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow