Ultimamente ho regolato le prestazioni di alcuni grandi lavori di shuffle pesanti. Guardando l'interfaccia utente di spark, ho notato un'opzione chiamata "Shuffle Read Blocked Time" nella sezione delle metriche aggiuntive.Spark - Shuffle Read Blocked Time
Questo "Tempo di lettura shuffle bloccato" sembra rappresentare fino al 50% della durata dell'attività per una grande quantità di attività.
Mentre sono in grado di intuire alcune possibilità per ciò che significa, non riesco a trovare alcuna documentazione che spieghi cosa rappresenta effettivamente. Inutile dire che non sono stato in grado di trovare risorse sulle strategie di mitigazione.
Qualcuno può fornire alcune informazioni su come ridurre il tempo di lettura shuffle bloccato?