6
Così sto salvando una scintilla RDD in un secchio S3 usando il seguente codice. C'è un modo per comprimere (in formato gz) e salvare invece di salvarlo come un file di testo.Come salvare una scintilla RDD in formato gzip tramite pyspark
help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")
Date un'occhiata [qui] (http://spark.apache.org/docs/latest/configuration.html# compressione e serializzazione) – eliasah
Posso suggerire di utilizzare un [parquet] (http://spark.apache.org/docs/latest/sql-programming-guide.html#manually-specifying-options)? :) –