Quindi sto cercando di imparare Spark usando Python (Pyspark). Voglio sapere come funziona la funzione mapPartitions
. Questo è ciò che Input prende e quale Output dà. Non sono riuscito a trovare alcun esempio corretto da internet. Diciamo, ho un oggetto RDD contenente elenchi, come di seguito.Come funziona la funzione mapPartitions di pyspark?
[ [1, 2, 3], [3, 2, 4], [5, 2, 7] ]
E voglio rimuovere l'elemento 2 da tutte le liste, come faccio a ottenere che l'utilizzo di mapPartitions
.
Perché non si restituisce nulla in filterOut2FromPartition f unzione. In secondo luogo, è finale qualche parola chiave in python? Penso che intendevi dire final.iterator = [] invece di final_iterator. – MetallicPriest
Risolti i problemi – bearrito
Ho provato a implementarlo ma ottengo l'errore "elenco oggetti non è un iteratore". Inoltre, penso che quando hai scritto [x per x in linea se x! = 2], penso che intendessi [x per x nella lista se x! = 2]. Ho usato la lista lì. – MetallicPriest