Lo streaming Hadoop supporta i nuovi formati di archiviazione colonnari come ORC e parquet o ci sono framework su Hadoop che consentono di leggere tali formati?Streaming di framework su Hadoop che supportano ORC, formati di file parquet
risposta
È possibile utilizzare HCatalog per leggere il file ORC. https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat
Fornisce un'astrazione per leggere file ORC, Testo, Sequenza, RC. Non sono sicuro che ci sia il supporto del parquet lì. Tuttavia, se ciò non sembra ragionevole, è possibile utilizzare i lettori di record ORC nella base del codice Hive per leggere i file ORC (ORCInputFormat, ORCOutputFormat).
Piuttosto vecchie notizie, ma ho faticato con questo qualche tempo fa. Non ho trovato alcuna soluzione per questo, di conseguenza, ho creato una serie di formati di input/output che convertono i file avro e parquet in/da testo normale e json. Può essere trovato a http://github.com/whale2/iow-hadoop-streaming. Non c'è supporto per ORC, ma Avro e Parquet sono supportati. Spero che questo aiuti.
- 1. Parquet senza Hadoop?
- 2. Streaming di dati e Hadoop? (non Hadoop Streaming)
- 3. ffmpeg: quali formati di file supportano l'utilizzo di stdin?
- 4. Hadoop e diversi formati di input come Immagine, Audio, Video
- 5. Formati di file audio/video che supportano marcatori e commenti/annotazioni incorporati?
- 6. Come suggeriresti di eseguire "Partecipa" con lo streaming Hadoop?
- 7. Spark Streaming textFileStream che non supportano i caratteri jolly
- 8. Hadoop streaming a python utilizzando mongo-hadoop
- 9. Formati di file di ricamo?
- 10. Ispezionare Parquet dalla riga di comando
- 11. Hadoop Streaming: Mapper 'wrapping' un eseguibile binario
- 12. Installazione di Hadoop su Windows
- 13. Multiple Output file per Hadoop Streaming con Python Mapper
- 14. Hadoop che accetta i file di input da più directory
- 15. Streaming di file video MP4 su Gstreamer
- 16. Facile creazione di proprietà che supportano l'indicizzazione in C#
- 17. Hadoop in streaming grep non funziona
- 18. Che significato hanno questi formati nella docstring di twisted?
- 19. Aggiunta di nuovi dati a file di parquet partizionati
- 20. lo streaming di supporto per l'implementazione di avro C piuttosto che l'output di file?
- 21. Quali file di sistema supportano Java UserDefinedFileAttributeView?
- 22. Domanda di base su Hadoop e file di input compressi
- 23. Formati di file supportati da UIWebView
- 24. Utilizzo di tabella alveare su parquet in Pig
- 25. Compilatori che supportano C11
- 26. C# Streaming di video di qualità scadente su HTTP
- 27. Ottieni il nome del file di input nello streaming del programma hadoop
- 28. Linguaggi di scripting che supportano fibre/coroutine?
- 29. Streaming di file Avi da C# utilizzando RTP
- 30. L'utilizzo di Spark per scrivere un file parquet su s3 su s3a è molto lento