Così, quando si esegue da pyspark vorrei digitare (senza specificare alcun contesti):Spark può accedere alla tabella Hive dal pyspark ma non dalla scintilla presentare
df_openings_latest = sqlContext.sql('select * from experian_int_openings_latest_orc')
.. e funziona benissimo.
Tuttavia, quando ho eseguito il mio script da spark-submit
, come
spark-submit script.py
ho messo il seguente in
from pyspark.sql import SQLContext
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName('inc_dd_openings')
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)
df_openings_latest = sqlContext.sql('select * from experian_int_openings_latest_orc')
ma mi dà un errore
pyspark.sql.utils. AnalysisException: u'Table non trovato: experian_int_openings_latest_orc; '
Quindi non vede il mio tavolo.
Cosa sto sbagliando? Si prega di aiutare
P.S. La versione di Spark è 1.6 in esecuzione su Amazon EMR
Grazie mille! :) – Dennis