Sono nuovo per accendere e sto cercando di creare un(). Count() basato su alcuni campi di un file csv.PySpark distinct(). Count() su un file csv
struttura Csv (senza intestazione):
id,country,type
01,AU,s1
02,AU,s2
03,GR,s2
03,GR,s2
per caricare .csv I digitato:
lines = sc.textFile("test.txt")
poi un conteggio distinto sul lines
restituito 3 come previsto:
lines.distinct().count()
Ma non ho idea di come fare un conteggio distinto basato su diciamo id
e country
.