2015-12-10 14 views
6

Così sto salvando una scintilla RDD in un secchio S3 usando il seguente codice. C'è un modo per comprimere (in formato gz) e salvare invece di salvarlo come un file di testo.Come salvare una scintilla RDD in formato gzip tramite pyspark

help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help") 
+0

Date un'occhiata [qui] (http://spark.apache.org/docs/latest/configuration.html# compressione e serializzazione) – eliasah

+2

Posso suggerire di utilizzare un [parquet] (http://spark.apache.org/docs/latest/sql-programming-guide.html#manually-specifying-options)? :) –

risposta

10

saveAsTextFile metodo prende un argomento opzionale che specifica classe di codec di compressione:

help_data.repartition(5).saveAsTextFile(
    path="s3://help-test/logs/help", 
    compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec" 
) 
Problemi correlati