PySpark aggiunge una colonna a un DataFrame da una colonna TimeStampType

Ho un DataFrame che assomiglia a qualcosa del genere. Voglio operare il giorno del campo date_time.PySpark aggiunge una colonna a un DataFrame da una colonna TimeStampType

root 
|-- host: string (nullable = true) 
|-- user_id: string (nullable = true) 
|-- date_time: timestamp (nullable = true)

Ho provato ad aggiungere una colonna per estrarre il giorno. Finora i miei tentativi hanno fallito.

df = df.withColumn("day", df.date_time.getField("day")) 

org.apache.spark.sql.AnalysisException: GetField is not valid on fields of type TimestampType;

Questo ha anche fallito

df = df.withColumn("day", df.select("date_time").map(lambda row: row.date_time.day)) 

AttributeError: 'PipelinedRDD' object has no attribute 'alias'

Qualsiasi idea di come questo può essere fatto?

fonte

2015-06-17 Wai Yip Tung

È possibile utilizzare semplice map:

df.rdd.map(lambda row: 
    Row(row.__fields__ + ["day"])(row + (row.date_time.day,)) 
)

Un'altra opzione è quella di registrare una funzione e SQL eseguire query:

sqlContext.registerFunction("day", lambda x: x.day) 
sqlContext.registerDataFrameAsTable(df, "df") 
sqlContext.sql("SELECT *, day(date_time) as day FROM df")

Infine si può definire UDF in questo modo:

from pyspark.sql.functions import udf 
from pyspark.sql.types import IntegerType 

day = udf(lambda date_time: date_time.day, IntegerType()) 
df.withColumn("day", day(df.date_time))

MODIFICA:

In realtà se si utilizza la funzione SQL raw day è già definita (almeno in Spark 1.4) in modo da poter omettere la registrazione di udf. Esso fornisce anche una serie di diverse funzioni Data elaborazione compresi

getter come year, month, dayofmonth
data Arithmetics strumenti come date_add, datediff
parser come from_unixtime e formattatori come date_format

E ' anche possibile utilizzare semplici espressioni di data come:

current_timestamp() - expr("INTERVAL 1 HOUR")

E 'significa che si può creare query relativamente complesse senza passare dati a Python. Ad esempio:

df = sc.parallelize([ 
    (1, "2016-01-06 00:04:21"), 
    (2, "2016-05-01 12:20:00"), 
    (3, "2016-08-06 00:04:21") 
]).toDF(["id", "ts_"]) 

now = lit("2016-06-01 00:00:00").cast("timestamp") 
five_months_ago = now - expr("INTERVAL 5 MONTHS") 

(df 
    # Cast string to timestamp 
    # For Spark 1.5 use cast("double").cast("timestamp") 
    .withColumn("ts", unix_timestamp("ts_").cast("timestamp")) 
    # Find all events in the last five months 
    .where(col("ts").between(five_months_ago, now)) 
    # Find first Sunday after the event 
    .withColumn("next_sunday", next_day(col("ts"), "Sun")) 
    # Compute difference in days 
    .withColumn("diff", datediff(col("ts"), col("next_sunday"))))

fonte

2015-06-23 02:29:00 zero323

Ci sono molte colonne e voglio solo aggiungerne un'altra. Il metodo della mappa può essere troppo macchinoso per elencare tutte le colonne esistenti. Proverò la modalità di registrazione. grazie. –

Non è necessario elencare tutte le colonne esistenti nella mappa. È possibile ricreare semplicemente la riga. Ho aggiornato la risposta per riflettere questo. Ci sono due problemi con questo approccio. Restituisce RDD di Righe non DataFrame ed è molto probabilmente più lento di un SQL ottimizzato. – zero323

Definire udf sembra essere il modo più pulito che ho trovato finora. Aggiunto alla risposta. – zero323

PySpark aggiunge una colonna a un DataFrame da una colonna TimeStampType

risposta

Problemi correlati