2015-05-13 11 views
8

Sono nuovo a scintillare e giocavo con Pyspark.sql. Secondo la documentazione pyspark.sql here, si può andare su come impostare il dataframe Spark e lo schema come questo:Sintassi durante l'impostazione dello schema per Pyspark.sql utilizzando StructType

rdd = sc.textFile('./some csv_to_play_around.csv' 

schema = StructType([StructField('Name', StringType(), True), 
        StructField('DateTime', TimestampType(), True) 
        StructField('Age', IntegerType(), True)]) 

# create dataframe 
df3 = sqlContext.createDataFrame(rdd, schema) 

La mia domanda è, che cosa fa il True riposare per nella lista schema di cui sopra? Non riesco a trovarlo nella documentazione. Grazie in anticipo

risposta

10

Ciò significa che se la colonna consente valori nulli, true per nullable, e false per non annullabile

StructField (nome, dataType, nullable): Rappresenta un campo in uno StructType. Il nome di un campo è indicato dal nome. Il tipo di dati di un campo è indicato da dataType. nullable è usato per indicare se i valori di questi campi possono avere valori nulli.

Fare riferimento a Spark SQL and DataFrame Guide per ulteriori informazioni.

Problemi correlati