Non è possibile leggere i file di sequenze Mahout generati con lo streaming Hadoop
-
26-10-2019 - |
Domanda
Sto cercando di trasmettere un file di sequenza generato da uno degli esempi Mahout per visualizzarne il contenuto:
hadoop jar hadoop-streaming-0.20.2-cdh3u0.jar \
-input /tmp/mahout-work-me/20news-bydate/bayes-test-input-output/ \
-output /tmp/me/mm \
-mapper "cat" \
-reducer "wc -l" \
-inputformat SequenceFileAsTextInputFormat
Il processo si avvia correttamente e muore con alla fine:
11/11/30 21:08:39 INFO streaming.StreamJob: map 0% reduce 0%
11/11/30 21:09:17 INFO streaming.StreamJob: map 100% reduce 100%
java.lang.RuntimeException: java.io.IOException: WritableName can't load class: org.apache.mahout.common.StringTuple
Mi chiedo se c'è qualcosa che non va nel mio file jar in streaming, se II necessità di puntare in modo esplicito al barattolo come Conduttore che ha questa classe (HADOOP_CLASSPATH impostazione provato alla posizione del mahout-core-0.5-cdh3u2.jar ma non ha funzionato ), o forse anche qualcos'altro?
Ogni aiuto è apprezzato. Grazie.
Soluzione
Aggiungere questa opzione:
-libjars mahout-core-0.5-cdh3u2.jar
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow