I file di registro sono memorizzati come testo in HDFS. Quando carico i file di registro in una tabella Hive, tutti i file vengono copiati.È possibile importare dati nella tabella Hive senza copiare i dati
Posso evitare di memorizzare tutti i miei dati di testo due volte?
EDIT: ho caricarlo tramite il seguente comando
LOAD DATA INPATH '/user/logs/mylogfile' INTO TABLE `sandbox.test` PARTITION (day='20130221')
Poi, posso trovare lo stesso file esatto in:
/user/hive/warehouse/sandbox.db/test/day=20130220
ho pensato che è stato copiato.
Come si dice, è copiato? Come li caricate in tavoli alveari? –
Lo carico tramite 'LOAD DATA INPATH 'xxx' INTO TABLE yyy' (vedi post edit) quindi trovo il file in'/user/hive/warehouse'. Mi chiedo se può lasciarlo lì (suppongo che avrei dovuto imporre la struttura delle partizioni nelle mie directory, ma va bene) –
Come è stato memorizzato in HDFS? –