Sto usando python su Spark e vorrei ottenere un csv in un dataframe.Ottieni CSV su Spark dataframe
Lo documentation per Spark SQL in modo strano non fornisce spiegazioni per CSV come origine.
ho trovato Spark-CSV, però ho problemi con due parti della documentazione:
"This package can be added to Spark using the --jars command line option. For example, to include it when starting the spark shell: $ bin/spark-shell --packages com.databricks:spark-csv_2.10:1.0.3"
Ho davvero bisogno di aggiungere questo ogni argomento mi lancio pyspark o scintille presentare? Sembra molto inelegante. Non c'è un modo per importarlo in Python piuttosto che riscaricarlo ogni volta?df = sqlContext.load(source="com.databricks.spark.csv", header="true", path = "cars.csv")
Anche se faccio quanto sopra, questo non funzionerà. Cosa significa l'argomento "sorgente" in questa riga di codice? Come faccio semplicemente a caricare un file locale su linux, ad esempio "/Spark_Hadoop/spark-1.3.1-bin-cdh4/cars.csv"?
questa risposta è vecchio, le nuove versioni di scintilla sono modi più semplici per raggiungere questo obiettivo. Fare riferimento alle risposte https://stackoverflow.com/a/41638342/187355 e https://stackoverflow.com/a/46539901/187355 –