Esistono tre tipi di operazioni che una query hive può eseguire.
In ordine di più economico e veloce a più costoso e più lento qui sono.
Una query hive può essere una richiesta solo per metadati.
Mostra tabelle, descrizione tabella sono esempi. In queste query il processo hive esegue una ricerca nel server metadati. Il server di metadati è un database SQL, probabilmente MySQL, ma il DB attuale è configurabile.
Una richiesta di hive può essere richiesta da hdfs. Selezionare * dalla tabella, sarebbe un esempio. In questo caso l'hive può restituire i risultati eseguendo un'operazione hdfs. hadoop fs -get, più o meno.
Una query hive può essere un lavoro di riduzione mappa.
Hive deve spedire il jar a hdf, il jobtracker mette in coda le attività, il tasktracker esegue le attività, i dati finali vengono inseriti in hdf o spediti al client.
Il processo di riduzione della mappa ha anche diverse possibilità.
Può essere un lavoro solo mappa. Selezionare * dalla tabella dove id> 100, ad esempio tutta la logica può essere applicata sul mapper.
Può essere un lavoro Mappa e Riduci, Selezionare min (id) dalla tabella; Seleziona * dall'ordine di tabella per id;
Può anche portare a più mappe Ridurre passaggi, ma penso che quanto sopra riassume alcuni comportamenti.
Qualcosa mi dice che AlexHenderson_v1.00 stava rispondendo alla domanda sbagliata. –
No. Il commento deve essere stato modificato dopo la mia risposta. Qualcosa mi dice che hai sbagliato il mio nome. –