Sto usando Spark 1.3.0 e Python. Ho un dataframe e desidero aggiungere una colonna aggiuntiva derivata da altre colonne. In questo modo,Aggiunta di una nuova colonna in Data Frame derivata da altre colonne (Spark)
>>old_df.columns
[col_1, col_2, ..., col_m]
>>new_df.columns
[col_1, col_2, ..., col_m, col_n]
dove
col_n = col_3 - col_4
Come faccio a fare questo in PySpark?
Ehi @ zero323, che cosa succede se voglio creare una colonna cioè Col_1 è una stringa e col_2 è una stringa e voglio column_n come join di col_1 e Col_2. Ad esempio, Col_1 è zero e column_2 è 323. Column_n deve essere zero323? – Jason
@ Jason http://stackoverflow.com/a/31452109/1560062 – zero323
Grazie a @ zero323. Anche se ho questa domanda: df.select (concat (col ("k"), illuminato (" "), col (" v"))) Come posso creare una terza colonna qui? – Jason