2010-03-11 9 views
9

di Apache Pig può caricare dati da file di sequenze Hadoop utilizzando il PiggyBank SequenceFileLoader:Memorizzazione dati a SequenceFile da Apache Pig

REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;

DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();

log = LOAD '/data/logs' USING SequenceFileLoader AS (...)

C'è anche una biblioteca là fuori che consentirebbe la scrittura di file di sequenza Hadoop da Pig?

risposta

2

È solo questione di implementare un StoreFunc per farlo.

Questo è possibile ora, anche se diventerà un po 'più facile una volta che Pig 0.7 sarà uscito, in quanto include una riprogettazione completa delle interfacce Load/Store.

Il "pacchetto di espansione Hadoop" Twitter sta per aprire fonte open-source a github, include il codice per la generazione di load e store funcs basato su Google Protocol Buffer (edificio su input/output per i formati stessa - che già avere quelli per i file di sequenza, ovviamente). Controllalo se hai bisogno di esempi su come fare qualcosa di meno banale. Dovrebbe essere abbastanza semplice però.

Problemi correlati