Cosa significa realmente la cache di distribuzione? Avere un file nella cache distribuita significa che è disponibile in ogni datanode e quindi non ci sarà alcuna comunicazione internodio per quei dati, o significa che il file è in memoria in ogni nodo? In caso contrario, con quali mezzi posso avere un file in memoria per l'intero lavoro? Questo può essere fatto sia per ridurre la mappa, sia per un UDF.Confusione sulla cache distribuita in Hadoop
(In particolare ci sono alcuni dati di configurazione, relativamente piccoli che vorrei conservare in memoria come una UDF si applica alla query hive .. .?)
Grazie e saluti, Dhruv Kapur.
Hey grazie per la risposta ... Quindi io sono più preoccupato per quando e come si fa a mettere qualcosa da cache distribuita nella memoria? In caso di Hive, avrò bisogno di accedere a questo file nella cache distribuita all'interno di una UDF. Come ci arrivo? Non dovrei leggere un file HDFS da un UDF giusto? –
Ho modificato il post. Basta fare riferimento all'URL menzionato. – Ashish
Questo è esattamente quello che sto cercando. Grazie! Sono ancora un po 'preoccupato se la mappa all'interno della UDF viene popolata solo una volta o meno. C'è qualche documentazione di hive che supporta questo, o un modo in cui posso verificare questo comportamento? –