Sto scrivendo un file parquet da DataFrame a S3. Quando guardo all'interfaccia utente di Spark, sono in grado di vedere tutte le attività tranne una completata in fase di scrittura (ad esempio 199/200). Quest'ultima operazione sembra richiedere sempre un completamento e, molto spesso, non riesce a causa del superamento del limite di memoria dell'esecutore.Spark scrive Parquet a S3 l'ultima operazione richiede per sempre
Mi piacerebbe sapere cosa sta succedendo in quest'ultimo compito. Come ottimizzarlo? Grazie.
Mi accorgo che quest'ultimo task executor ha una lettura molto più casuale rispetto agli altri esecutori completati. Questo significa che il partizionamento non è ottimale? Come evitarlo? – user2680514
Sto usando Spark 1.3.1 – user2680514
Per determinare se il problema di inclinazione dei dati è il problema, abbiamo bisogno di maggiori informazioni sulla dimensione di quest'ultimo file rispetto agli altri. Dato quello che hai detto sugli errori di OOM, penso che il problema sia dovuto all'oscillazione dei dati. Senza un po 'di codice sarà difficile aiutare in qualsiasi cosa tranne una prova, questa prova in questo modo. – BAR