Nel tentativo di salvare un dataframe Spark (di oltre 20G) in un unico file JSON in Amazon S3, il mio codice per salvare il dataframe è come questo:risparmiare una grande Spark dataframe come un singolo file JSON in S3
dataframe.repartition(1).save("s3n://mybucket/testfile","json")
Ma sto ricevendo un errore da S3 "Il tuo caricamento proposto supera la dimensione massima consentita", so che la dimensione massima consentita da Amazon è 5 GB.
È possibile utilizzare il caricamento multipart S3 con Spark? o c'è un altro modo per risolvere questo?
Btw ho bisogno dei dati in un unico file perché un altro utente sta per scaricarlo dopo.
* Im utilizzando apache spark 1.3.1 in un cluster a 3 nodi creato con lo script spark-ec2.
Grazie mille
JG
Ho appena visto che se io uso S3A invece di S3N potrebbe risolvere il mio problema (http://wiki.apache.org/hadoop/AmazonS3), ma la cosa è che la versione hadoop che sto usando (Hadoop 2.0.0-cdh4.2.0) non supporta s3a. Qualche idea? Grazie ancora. – jegordon