2015-09-24 19 views
8

Ho un RDD che sto creando caricando un file di testo e preelaborandolo. Non voglio collezionarlo e salvarlo sul disco o sulla memoria (interi dati), ma piuttosto voglio passarlo ad un'altra funzione in python che consuma dati uno dopo l'altro è una forma di iterabile.Convertire un RDD in iterable: PySpark?

Com'è possibile?

data = sc.textFile('file.txt').map(lambda x: some_func(x)) 

an_iterable = data. ## what should I do here to make it give me one element at a time? 
def model1(an_iterable): 
for i in an_iterable: 
    do_that(i) 

model(an_iterable) 

risposta

Problemi correlati