无法阅读使用Hadoop流的Mahout生成的序列文件
-
26-10-2019 - |
题
我正在尝试流式传输由Mahout示例之一生成的序列文件,以查看其内容:
hadoop jar hadoop-streaming-0.20.2-cdh3u0.jar \
-input /tmp/mahout-work-me/20news-bydate/bayes-test-input-output/ \
-output /tmp/me/mm \
-mapper "cat" \
-reducer "wc -l" \
-inputformat SequenceFileAsTextInputFormat
这项工作开始成功,最终死亡:
11/11/30 21:08:39 INFO streaming.StreamJob: map 0% reduce 0%
11/11/30 21:09:17 INFO streaming.StreamJob: map 100% reduce 100%
java.lang.RuntimeException: java.io.IOException: WritableName can't load class: org.apache.mahout.common.StringTuple
我想知道我的流罐文件是否有问题,II是否需要明确指向具有此类的Mahout Jar(尝试将Hadoop_classpath设置为Mahout-core-0.5-CDH3U2.JAR的位置,但不起作用)或也许还有其他东西?
任何帮助都将受到赞赏。谢谢。
解决方案
添加此选项:
-libjars mahout-core-0.5-cdh3u2.jar
不隶属于 StackOverflow