Come rimuovere le parentesi attorno ai record quando saveAsTextFile su RDD [(String, Int)]?

Sto utilizzando saveAsTextFile(path) per salvare l'output come file di testo in seguito per importare il risultato in DB. L'output è simile al seguente:Come rimuovere le parentesi attorno ai record quando saveAsTextFile su RDD [(String, Int)]?

(value1, value2)

Come rimuovere le parentesi?

fonte

2015-04-29 Userrrrrrrr

È possibile provare la seguente, che è molto semplice:

rdd.map(x => x._1 + "," + x._2).saveAsTextFile(path)

Basta mappare il tuo RDD [(A, B)] a un RDD [String] e salvarlo.

fonte

2015-04-29 13:44:26 eliasah

@Ashish se si dispone di un commento, si prega di utilizzare la casella di commento e non modificare la risposta! Anche il codice che hai suggerito nella modifica non è correlato alla domanda qui. Il tuo codice funziona con un RDD [Row] che non è il caso qui. – eliasah

Provare esplicitamente con mkString anziché stampare semplicemente una tupla direttamente.

fonte

2015-04-29 14:48:31 lmm

Per gli utenti del mondo Java, ecco una soluzione che inizia con DataFrame, la converte in un RDD e quindi scrive i risultati. Le righe del RDD vengono passate attraverso la funzione mappa che converte la riga in una stringa.

public void write(DataFrame output) { 
    String path = "your_path_goes_here"; 
    output 
     .toJavaRDD() 
     .map(new BracketRemover()) 
     .saveAsTextFile(path); 
} 

protected class BracketRemover implements Function<Row, String> { 
    public String call(Row r) { 
     return r.mkString(","); 
    } 
}

fonte

2016-02-02 17:33:52

Prima di fare uso saveAsTextFilemap(x => x.mkString(",")

rdd.map(x => x.mkString(",").saveAsTextFile(path)

uscita non avrà staffa.

fonte

2016-12-02 20:15:12

È possibile salvare RDD utilizzando rdd.map (rec => rec.productIterator.mkString (""). SaveAsTextFile (percorso) risultante set di dati non avrà parentesi.

fonte

2017-04-20 10:04:30 Nikkhiel24

So che è etichettato Scala, ma solo per aggiungere dalla parte di Python nel caso in cui qualcuno è curioso. Creare la RDD e salvare come è

rdd_of_tuples = sc.parallelize([('one',1),('two',2)]) 
rdd_of_tuples.saveAsTextFile('/user/cloudera/rdd_of_tuples')

Ciò farà risparmiare le righe come questo come si parla

('one', 1)

Ma se lo fate il seguente dovrebbe funzionare

rdd_of_text = rdd_of_tuples.map(lambda (x,y): x + ',' + str(y)).saveAsTextFile('/user/cloudera/rdd_of_text')

e si dovrebbe ottenere

one,1

Si noti che in questo caso particolare è necessario essere consapevoli dei tipi per concatenare (controllare la str (y)), altrimenti si otterrebbe la seguente eccezione

TypeError: cannot concatenate 'str' and 'int' objects

fonte

2017-12-01 15:31:05 xmorera

Come rimuovere le parentesi attorno ai record quando saveAsTextFile su RDD [(String, Int)]?

risposta

Problemi correlati