Impossible de lire les fichiers de séquence générés Mahout avec Hadoop en streaming
-
26-10-2019 - |
Question
Je suis en train de diffuser un fichier de séquence généré par l'un des exemples Mahout pour voir son contenu:
hadoop jar hadoop-streaming-0.20.2-cdh3u0.jar \
-input /tmp/mahout-work-me/20news-bydate/bayes-test-input-output/ \
-output /tmp/me/mm \
-mapper "cat" \
-reducer "wc -l" \
-inputformat SequenceFileAsTextInputFormat
Le travail commence avec succès et finit par mourir avec:
11/11/30 21:08:39 INFO streaming.StreamJob: map 0% reduce 0%
11/11/30 21:09:17 INFO streaming.StreamJob: map 100% reduce 100%
java.lang.RuntimeException: java.io.IOException: WritableName can't load class: org.apache.mahout.common.StringTuple
Je me demande si quelque chose ne va pas avec mon fichier jar en continu, si II faut explicitement dans le pot Mahout qui a cette classe (réglage essayé HADOOP_CLASSPATH à l'emplacement de cornac-core-0.5-cdh3u2.jar, mais n'a pas fonctionné ), ou peut-être même quelque chose d'autre?
Toute aide est appréciée. Merci.
La solution
Ajoutez cette option:
-libjars mahout-core-0.5-cdh3u2.jar
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow