Sono nuovo di spark/zeppelin e volevo completare un semplice esercizio, dove trasformerò un file csv da panda a Spark data frame e quindi registrerò la tabella interrogarlo con sql e visualizzarlo usando Zeppelin.Zeppelin - Impossibile interrogare con% sql una tabella Mi sono registrato con pyspark
Ma mi sembra di non riuscire nell'ultimo passaggio.
Sto usando Spark 1.6.1
Ecco il mio codice:
%pyspark
spark_clean_df.registerTempTable("table1")
print spark_clean_df.dtypes
print sqlContext.sql("select count(*) from table1").collect()
Ecco l'output:
[('id', 'bigint'), ('name', 'string'), ('host_id', 'bigint'), ('host_name', 'string'), ('neighbourhood', 'string'), ('latitude', 'double'), ('longitude', 'double'), ('room_type', 'string'), ('price', 'bigint'), ('minimum_nights', 'bigint'), ('number_of_reviews', 'bigint'), ('last_review', 'string'), ('reviews_per_month', 'double'), ('calculated_host_listings_count', 'bigint'), ('availability_365', 'bigint')]
[Row(_c0=4961)]
Ma quando provo ad usare% SQL ottengo questo error:
%sql
select * from table1
Table not found: table1; line 1 pos 14
set zeppelin.spark.sql.stacktrace = true to see full stacktrace
Qualsiasi l'aiuto sarebbe apprezzato - non so nemmeno dove trovare questo stacktrace e come potrebbe aiutarmi.
Grazie :)
Questo collegamento è stato particolarmente utile quando si ha a che fare con questo problema: http://spark.apache.org/docs/latest/sql-programming-guide.html – StefanK