2015-09-03 11 views
5

Abbiamo un requisito in cui dobbiamo appednd i file ORC. Ho provato a google, ma nessun risultato. Anche org.apache.hadoop.hive.ql.io.orc.WriterImpl di ORC non ha l'API di aggiunta. Esiste comunque l'aggiunta dei file ORC? (Più specificamente utilizzando JAVA)Come aggiungere il file ORC

risposta

4

I file di dati ORC sono suddivisi in strisce indipendenti; ogni striscia viene creata in un singolo passaggio atomico. Vedi the official documentation per i dettagli.

Non credo che sia possibile aggiungere direttamente un file esistente al volo. Ciò significherebbe lasciare una striscia corrotta (quindi un file corrotto) in caso di crash del lavoro durante la scrittura.

Ma si può

  • creare un file di dati nuova ORC (che conterrà 1..N strisce a seconda sul volume di dati reali vs. orc.stripe.size proprietà) per riduttore
  • poi "concatenate" Questi dati file - e file esistenti (s) - utilizzando Hive V0.14 and above
Problemi correlati