Domanda

Sono un noobie per Sharkle - Anche se ho qualche esperienza con la scintilla.Ogni tentativo di recuperare i dati dallo squalo è appeso.

Come fase preliminare: Assicuriamo che la scintilla fosse su e sana:

spark>
val tf = sc.textFile("hdfs://10.213.39.125:8020/hadoop/example/20417.txt")

 val c = tf.count 
..
14/04/10 19:44:34 INFO SparkContext: Job finished: count at <console>:14, took 0.161135127 s
c: Long = 12761
.

Ho controllato attentamente i punti Shark-env.sh fino all'installazione della scintilla correttamente ..

Ora andiamo a squalo e provare (a) lo stesso file lettura e (b) una tabella di squalo leggi

(a)

shark>
       val tf = sc.textFile("hdfs://10.213.39.125:8020/hadoop/example/20417.txt")                          
tf: org.apache.spark.rdd.RDD[String] = MappedRDD[4] at textFile at <console>:17

scala>  val c2 = tf.count      
(wait minutes .. finally do control -c)


shark>
sc.makeRDD("select * from dual")
res1: org.apache.spark.rdd.RDD[Char] = ParallelCollectionRDD[2] at makeRDD at <console>:18

scala> res1.collect                                                                                        

(Once again:  wait minutes .. finally do control -c)

java.lang.InterruptedException
        at java.lang.Object.wait(Native Method)
        at java.lang.Object.wait(Object.java:485)
        at org.apache.spark.scheduler.JobWaiter.awaitResult(JobWaiter.scala:62)
        at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:313)
        at org.apache.spark.SparkContext.runJob(SparkContext.scala:725)
        at org.apache.spark.SparkContext.runJob(SparkContext.scala:744)
        at org.apache.spark.SparkContext.runJob(SparkContext.scala:758)
        at org.apache.spark.SparkContext.runJob(SparkContext.scala:772)
        at org.apache.spark.rdd.RDD.collect(RDD.scala:560)
.

Maggiori dettagli

Qui sono sezioni pertinenti di Shark-env.sh

export SPARK_MEM=2g

# (Required) Set the master program's memory
export SHARK_MASTER_MEM=1g

# (Required) Point to your Scala installation.
export SCALA_HOME="/usr/local/scala-2.9.3"

# (Required) Point to the patched Hive binary distribution
export HIVE_HOME="/home/guest/shark-0.8.0-bin-hadoop1/hive-0.9.0-shark-0.8.0-bin"

# For running Shark in distributed mode, set the following:
export HADOOP_HOME="/usr/local/hadoop"
export SPARK_HOME="/home/guest/spark-0.8.0"
export MASTER="spark://swlab-r03-16L:17087"
.

Da Shark-Shell, Assicurati che stiamo parlando con lo stesso server Spark

scala> sc.sparkHome
res0: String = /home/guest/spark-0.8.0

scala> sc.isLocal                                                                                          
res1: Boolean = false

scala> sc.master
res2: String = spark://swlab-r03-16L:17087
.

È stato utile?

Soluzione

Sembra che ci fossero problemi di configurazione dei metastore di Hive.I parametri Metastore sono sotto il sito di Shark-Hive- / Conf / Hive.xml

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top