Uso Cloudera Hadoop. Sono in grado di eseguire un semplice programma mapreduce in cui fornisco un file come input per il programma MapReduce.Hadoop: Fornire la directory come input per il lavoro MapReduce
Questo file contiene tutti gli altri file da elaborare con la funzione mapper.
Ma sono bloccato a un certo punto.
/folder1
- file1.txt
- file2.txt
- file3.txt
Come posso specificare il percorso di ingresso al programma di MapReduce come "/folder1"
, in modo che possa iniziare l'elaborazione di ogni file all'interno di questa directory?
Qualche idea?
EDIT:
1) Intiailly, ho fornito l'inputFile.txt come input al programma MapReduce. Funzionava perfettamente.
>inputFile.txt
file1.txt
file2.txt
file3.txt
2) Ma ora, invece di dare un file di input, voglio fornire una directory di input come arg [0] sulla riga di comando.
hadoop jar ABC.jar /folder1 /output
come stai presentando/creare il lavoro? –
Controlla le modifiche ..... –
Sì, funziona così, qual è la tua domanda? –