상어 시작하기 : 모든 쿼리 교수형

https://stackoverflow.com//questions/23003136

20-12-2019
|

문제

나는 셰르마를위한 noobie입니다. 왜냐하면 나는 불꽃에 대한 경험이 있지만상어로부터 데이터를 검색하려는 모든 시도가 매달려 있습니다.

예비 단계로 : 스파크가 일어나고 건강 해지고 있습니다 :

spark>
val tf = sc.textFile("hdfs://10.213.39.125:8020/hadoop/example/20417.txt")

 val c = tf.count 
..
14/04/10 19:44:34 INFO SparkContext: Job finished: count at <console>:14, took 0.161135127 s
c: Long = 12761

Shark-env.sh가 스파크 설치를 가리키는 점을 조심스럽게 확인했습니다.

이제 우리가 상어로 가서 (a) 동일한 파일을 읽고 (b) 상어 테이블을 읽으십시오

(a)

shark>
       val tf = sc.textFile("hdfs://10.213.39.125:8020/hadoop/example/20417.txt")                          
tf: org.apache.spark.rdd.RDD[String] = MappedRDD[4] at textFile at <console>:17

scala>  val c2 = tf.count      
(wait minutes .. finally do control -c)


shark>
sc.makeRDD("select * from dual")
res1: org.apache.spark.rdd.RDD[Char] = ParallelCollectionRDD[2] at makeRDD at <console>:18

scala> res1.collect                                                                                        

(Once again:  wait minutes .. finally do control -c)

java.lang.InterruptedException
        at java.lang.Object.wait(Native Method)
        at java.lang.Object.wait(Object.java:485)
        at org.apache.spark.scheduler.JobWaiter.awaitResult(JobWaiter.scala:62)
        at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:313)
        at org.apache.spark.SparkContext.runJob(SparkContext.scala:725)
        at org.apache.spark.SparkContext.runJob(SparkContext.scala:744)
        at org.apache.spark.SparkContext.runJob(SparkContext.scala:758)
        at org.apache.spark.SparkContext.runJob(SparkContext.scala:772)
        at org.apache.spark.rdd.RDD.collect(RDD.scala:560)

자세한 내용

여기서 shark-env.sh

의 관련 섹션이 있습니다.
export SPARK_MEM=2g # (Required) Set the master program's memory export SHARK_MASTER_MEM=1g # (Required) Point to your Scala installation. export SCALA_HOME="/usr/local/scala-2.9.3" # (Required) Point to the patched Hive binary distribution export HIVE_HOME="/home/guest/shark-0.8.0-bin-hadoop1/hive-0.9.0-shark-0.8.0-bin" # For running Shark in distributed mode, set the following: export HADOOP_HOME="/usr/local/hadoop" export SPARK_HOME="/home/guest/spark-0.8.0" export MASTER="spark://swlab-r03-16L:17087"
.

상어 쉘에서

같은 점화 서버와 얘기하고 있는지 확인합시다.
scala> sc.sparkHome res0: String = /home/guest/spark-0.8.0 scala> sc.isLocal res1: Boolean = false scala> sc.master res2: String = spark://swlab-r03-16L:17087
.

해결책

Hive MetaStore 구성 문제가있는 것 같습니다.metastore 매개 변수는 상어 하이브 / conf / hive-site.xml

아래에 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow