Non è possibile leggere i file di sequenze Mahout generati con lo streaming Hadoop

StackOverflow https://stackoverflow.com/questions/8333164

  •  26-10-2019
  •  | 
  •  

Domanda

Sto cercando di trasmettere un file di sequenza generato da uno degli esempi Mahout per visualizzarne il contenuto:

    hadoop jar hadoop-streaming-0.20.2-cdh3u0.jar \
    -input /tmp/mahout-work-me/20news-bydate/bayes-test-input-output/ \
    -output /tmp/me/mm \
    -mapper "cat" \
    -reducer "wc -l" \
    -inputformat SequenceFileAsTextInputFormat

Il processo si avvia correttamente e muore con alla fine:

11/11/30 21:08:39 INFO streaming.StreamJob:  map 0%  reduce 0%
11/11/30 21:09:17 INFO streaming.StreamJob:  map 100%  reduce 100%
java.lang.RuntimeException: java.io.IOException: WritableName can't load class: org.apache.mahout.common.StringTuple

Mi chiedo se c'è qualcosa che non va nel mio file jar in streaming, se II necessità di puntare in modo esplicito al barattolo come Conduttore che ha questa classe (HADOOP_CLASSPATH impostazione provato alla posizione del mahout-core-0.5-cdh3u2.jar ma non ha funzionato ), o forse anche qualcos'altro?

Ogni aiuto è apprezzato. Grazie.

È stato utile?

Soluzione

Aggiungere questa opzione:

-libjars mahout-core-0.5-cdh3u2.jar
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top