2014-04-03 8 views

risposta

1

È possibile utilizzare HCatalog per leggere il file ORC. https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat

Fornisce un'astrazione per leggere file ORC, Testo, Sequenza, RC. Non sono sicuro che ci sia il supporto del parquet lì. Tuttavia, se ciò non sembra ragionevole, è possibile utilizzare i lettori di record ORC nella base del codice Hive per leggere i file ORC (ORCInputFormat, ORCOutputFormat).

1

Piuttosto vecchie notizie, ma ho faticato con questo qualche tempo fa. Non ho trovato alcuna soluzione per questo, di conseguenza, ho creato una serie di formati di input/output che convertono i file avro e parquet in/da testo normale e json. Può essere trovato a http://github.com/whale2/iow-hadoop-streaming. Non c'è supporto per ORC, ma Avro e Parquet sono supportati. Spero che questo aiuti.

Problemi correlati