Voglio scorrere tutti i file di testo in una directory Hadoop e contare tutte le occorrenze della parola "errore". C'è un modo per fare un hadoop fs -ls /users/ubuntu/
per elencare tutti i file in una directory con l'API di Apache Spark Scala?Usa Spark per elencare tutti i file in una directory Hadoop HDFS?
Dalla data first example, il contesto scintilla sembra solo di accedere ai file singolarmente attraverso qualcosa di simile:
val file = spark.textFile("hdfs://target_load_file.txt")
Nel mio problema, io non so quanti né i nomi dei file nella cartella HDFS anticipo . Ho visto il spark context docs ma non ho trovato questo tipo di funzionalità.
E se volessi segnalare il nome del file in cui si è verificato l'errore? –
Usa 'sc.wholeTextFiles'. Vedi http://stackoverflow.com/questions/29521665/how-to-map-filenames-to-rdd-using-sc-textfiles3n-bucket-csv per quasi tutta questa domanda. –