ho letto Hadoop in Action e ha scoperto che in Java
utilizzando MultipleOutputFormat
e MultipleOutputs
classi siamo in grado di ridurre i dati a più file, ma quello che io non sono sicuro è come? ottenere la stessa cosa usando Python streaming
.Python Streaming: come ridurre a più uscite (la sua possibile con Java però)
ad esempio:
/out1/part-0000
mapper -> reducer
\ out2/part-0000
Se qualcuno sa, sentito, fatto cosa simile, fatemelo sapere
Come lo uso? basta scaricare il barattolo, dare "-libjar feathers.jar" senza influenzare alcuna mappa/ridurre il lavoro che ho scritto fino ad ora? sarebbe utile qualsiasi codice di prova di esempio a cui posso riferirmi per eseguirlo – daydreamer