Sto usando il seguente codice per salvare un dataframe scintilla per il file JSONCome evitare di generare file CRC e file SUCCESS mentre si salva un DataFrame?
unzipJSON.write.mode("append").json("/home/eranw/Workspace/JSON/output/unCompressedJson.json")
il risultato di uscita è:
part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8
.part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8.crc
part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8
.part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8.crc
_SUCCESS
._SUCCESS.crc
- Come faccio a generare un unico file JSON e non un file per ogni linea?
- Come posso evitare i file * crc?
- Come posso evitare il file SUCCESS?
La domanda è: perché abbiamo bisogno dei file 'CRC' e' _SUCCESS'? I nodi Spark (worker) scrivono i dati simultaneamente e questi file fungono da checksum per la convalida. La scrittura su un singolo file elimina l'idea del calcolo distribuito e questo approccio potrebbe non riuscire se il file risultante è troppo grande. –