Come salvare una scintilla RDD in formato gzip tramite pyspark

Così sto salvando una scintilla RDD in un secchio S3 usando il seguente codice. C'è un modo per comprimere (in formato gz) e salvare invece di salvarlo come un file di testo.Come salvare una scintilla RDD in formato gzip tramite pyspark

help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")

2015-12-10 rclakmal

Date un'occhiata [qui] (http://spark.apache.org/docs/latest/configuration.html# compressione e serializzazione) – eliasah

Posso suggerire di utilizzare un [parquet] (http://spark.apache.org/docs/latest/sql-programming-guide.html#manually-specifying-options)? :) –

saveAsTextFile metodo prende un argomento opzionale che specifica classe di codec di compressione:

help_data.repartition(5).saveAsTextFile(
    path="s3://help-test/logs/help", 
    compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec" 
)

2015-12-10 16:49:33 zero323

risposta