2011-09-29 16 views

risposta

2

Il Dumbo Feathers, un insieme di classi Java da utilizzare insieme con Dumbo (una libreria Python che semplifica la scrittura di efficienti programmi Python M/R per hadoop), lo fa nel suo output classes.

Fondamentalmente, nel lavoro M/R di Python dumbo, si emette una chiave che è una tupla di due elementi: il primo elemento è il nome della directory su cui eseguire l'output, il secondo elemento è la chiave effettiva. La classe di output selezionata quindi ispeziona la tupla per trovare la directory di output da utilizzare e utilizza MultipleOutputFormat per scrivere in sottodirectory diverse.

Con dumbo, questo è facile a causa dell'uso di dattiloscritti come formato di output, ma penso che dovrebbe essere fattibile anche se si dispone di altri formati di output.

+0

Come lo uso? basta scaricare il barattolo, dare "-libjar feathers.jar" senza influenzare alcuna mappa/ridurre il lavoro che ho scritto fino ad ora? sarebbe utile qualsiasi codice di prova di esempio a cui posso riferirmi per eseguirlo – daydreamer

Problemi correlati