Dato un lavoro con la mappa e ridurre le fasi, posso vedere che la cartella di output contiene file chiamati "part-r-00000".Hadoop: ottieni risultati dai file di output dopo la riduzione?
Se ho bisogno di post-processare questi file a livello di applicazione, è necessario scorrere tutti i file nella cartella di output in ordine di denominazione naturale (part-r-00000, part-r-00001, part-r-00002 ...) per ottenere risultati di lavoro?
Oppure posso usare qualche lettore di file hadoop helper, che mi permetterà di ottenere un "iteratore" e gestire il cambio di file per me (quando il file part-r-00000 è completamente letto, continua dal file part-r-00001)?
Ho bisogno di ottenere questi file su un altro host e trasformare/inserire il contenuto nel database. Non riesco a farlo inserto in fase di riduzione perché il cluster non ha accesso al database. – jdevelop