Sto provando a convertire Pandas DF in Spark uno. testa DF:Conversione del dataframe di Pandas in errore Spark Dataframe
10000001,1,0,1,12:35,OK,10002,1,0,9,f,NA,24,24,0,3,9,0,0,1,1,0,0,4,543
10000001,2,0,1,12:36,OK,10002,1,0,9,f,NA,24,24,0,3,9,2,1,1,3,1,3,2,611
10000002,1,0,4,12:19,PA,10003,1,1,7,f,NA,74,74,0,2,15,2,0,2,3,1,2,2,691
Codice:
dataset = pd.read_csv("data/AS/test_v2.csv")
sc = SparkContext(conf=conf)
sqlCtx = SQLContext(sc)
sdf = sqlCtx.createDataFrame(dataset)
E ho ottenuto un errore:
TypeError: Can not merge type <class 'pyspark.sql.types.StringType'> and <class 'pyspark.sql.types.DoubleType'>
La mia prima ipotesi è che il file contenga sia numeri che stringhe in una colonna e Spark si confonde con esso. Tuttavia, dovrebbe essere gestito da Pandas durante l'importazione. –
il tuo DF ha nomi di colonne? – MaxU
Sì, lo ha. Dovrei disabilitarli? –