In che modo Hive decide quando utilizzare la mappa ridurre e quando no?

Come semplice esempio,In che modo Hive decide quando utilizzare la mappa ridurre e quando no?

select * from tablename;

NON SI calcio nel ridurre mappa, mentre

select count(*) from tablename;

fa. Qual è il principio generale utilizzato per decidere quando utilizzare la mappa riduci (dall'alveare)?

fonte

2011-09-19 Lazer

In generale, qualsiasi tipo di aggregazione, come min/max/count richiederà un lavoro MapReduce. Questo non ti spiegherà tutto, probabilmente.

Hive, nello stile di molti RDBMS, ha una parola chiave EXPLAIN che descriverà come la query Hive viene tradotta in lavori MapReduce. Prova a eseguire spiegare su entrambe le query di esempio e vedere cosa sta cercando di fare dietro le quinte.

fonte

2011-09-19 04:41:15

selezionare * da tablename;

Legge solo i dati grezzi dai file in HDFS, quindi è molto più veloce senza MapReduce.

fonte

2011-09-20 17:47:52 wlk

ma per un file di grandi dimensioni deve essere letto da tutti i nodi in parallelo. Hive lo fa senza MR? – ernesto

-1

È una tecnica di ottimizzazione, l'attività(FETCH) può ridurre al minimo la latenza del sovraccarico di mapreduce.

Quando si esegue SELECT, LIMIT, FETCH esegue una query su questa proprietà ignora mapreduce e utilizza l'attività FETCH.

Questa proprietà può avere 3 valori - none, minimal (impostazione predefinita) e more.

fonte

2016-04-27 07:17:40 user6260103

Ogni volta che spariamo una query come select * from tablename, Hive legge il file di dati e recupera tutti i dati senza fare alcuna aggregazione (min/max/count, ecc). Chiamerà uno FetchTask anziché un mapreduce attività.

Questa è anche una tecnica di ottimizzazione in Hive. hive.fetch.task.conversion proprietà possibile (ad esempio, attività FETCH) ridurre al minimo la latenza di sovraccarico della mappa.

Questo è come stiamo leggendo un file Hadoop: Hadoop fs -cat nome

Ma se usiamo selezionare colNames da tablename, richiede una mappa-reduce lavoro come ha bisogno di estrarre la "colonna" di ogni riga analizzandola dal file che carica.

fonte

2018-01-11 17:31:39

In che modo Hive decide quando utilizzare la mappa ridurre e quando no?

risposta

Problemi correlati