Sto scrivendo una funzione mappa utilizzando mrjob. Il mio input verrà dai file in una directory su HDFS. I nomi dei file contengono informazioni di un pezzo piccolo ma cruciale che non sono presenti nei file. C'è un modo per imparare (all'interno di una funzione mappa) il nome del file di input da cui proviene una determinata coppia valore-chiave?Come ottenere il nome del file di input in MRjob
Sto cercando un equivalente di questo codice Java:
FileSplit fileSplit = (FileSplit)reporter.getInputSplit();
String fileName = fileSplit.getPath().getName();
Grazie in anticipo!
e ulteriori informazioni possono essere trovate dal precedente risposta di Praveen ad una domanda simile a questo - http://stackoverflow.com/ domande/7449756/get-input-nome-file-in-streaming-hadoop-programma –
Grazie, @PraveenSripati e @ChrisWhite, questo è esattamente ciò di cui avevo bisogno! Per dichiararlo esplicitamente per i futuri visitatori: 'fileName = os.environ ['map_input_file']' fa il trucco. – Bolo