ho un algoritmo che passerà attraverso un grande set di dati, leggere alcuni file di testo e cercare termini specifici in quelle linee. L'ho implementato in Java, ma non volevo postare codice in modo che non sembri che cerco qualcuno che lo implementa per me, ma è vero che ho davvero bisogno di molto aiuto !!! Questo non era previsto per il mio progetto, ma il set di dati si è rivelato enorme, quindi l'insegnante mi ha detto che devo farlo in questo modo.Ho bisogno di aiuto per implementare questo algoritmo con la mappa Hadoop MapReduce
EDIT (non ho chiarito i consigli precedenti versioni) L'insieme di dati che ho è su un cluster Hadoop, e dovrei fare la sua attuazione MapReduce
stavo leggendo su MapReduce e insegnati che ho faccio il implementazione standard e quindi sarà più o meno più facile farlo con mapreduce. Ma non è successo, dato che l'algoritmo è abbastanza stupido e niente di speciale, e la mappa si riduce ... non posso girarci intorno.
ecco poco pseudo codice del mio algoritmo
LIST termList (there is method that creates this list from lucene index)
FOLDER topFolder
INPUT topFolder
IF it is folder and not empty
list files (there are 30 sub folders inside)
FOR EACH sub folder
GET file "CheckedFile.txt"
analyze(CheckedFile)
ENDFOR
END IF
Method ANALYZE(CheckedFile)
read CheckedFile
WHILE CheckedFile has next line
GET line
FOR(loops through termList)
GET third word from line
IF third word = term from list
append whole line to string buffer
ENDIF
ENDFOR
END WHILE
OUTPUT string buffer to file
Inoltre, come si può vedere, ogni volta che "analizzare" si chiama, nuovo file deve essere creato, ho capito che mappa a ridurre è difficile scrivere a molte uscite ???
Capisco mapreduce intuition, e il mio esempio sembra perfettamente adatto per mapreduce, ma quando si tratta di fare questo, ovviamente non ne so abbastanza e sono STUCK!
Si prega di aiutare.
Ciao! Grazie per la risposta !!! Ma non sono sicuro di aver capito:/puoi darmi qualche informazione in più? Hai forse qualche esempio del genere ??? – Julia