Sto lavorando con i dataframe in pyspark 1.4 localmente e sto riscontrando problemi nel far funzionare il metodo dei duplicati di rilascio. Continua a restituire l'errore "AttributeError: 'list' object non ha attributo 'dropDuplicates'". Non sono sicuro del perché, come sembra, sto seguendo la sintassi nello latest documentation. Sembra che manchi un'importazione per quella funzionalità o qualcosa del genere.rimuovere i duplicati da un dataframe in pyspark
#loading the CSV file into an RDD in order to start working with the data
rdd1 = sc.textFile("C:\myfilename.csv").map(lambda line: (line.split(",")[0], line.split(",")[1], line.split(",")[2], line.split(",")[3])).collect()
#loading the RDD object into a dataframe and assigning column names
df1 = sqlContext.createDataFrame(rdd1, ['column1', 'column2', 'column3', 'column4']).collect()
#dropping duplicates from the dataframe
df1.dropDuplicates().show()
ok, questo ha senso ora. – Jared