2015-04-06 9 views

risposta

11

Supponendo che si desidera aggiungere una colonna denominata new al dataframe df ottenuto invocando numpy.random.normal più volte, si potrebbe fare:

import numpy 
from pyspark.sql.functions import UserDefinedFunction 
from pyspark.sql.types import DoubleType 

udf = UserDefinedFunction(numpy.random.normal, DoubleType()) 

df_with_new_column = df.withColumn('new', udf()) 
Problemi correlati