Accesso ai file nella cache distribuita hadoop

Desidero utilizzare la cache distribuita per consentire ai miei mappatori di accedere ai dati. In main, sto usando il comandoAccesso ai file nella cache distribuita hadoop

DistributedCache.addCacheFile(new URI("/user/peter/cacheFile/testCache1"), conf);

Dove/user/Peter/CacheFile/testCache1 è un file che esiste in HDFS

Poi, la mia funzione di configurazione è simile al seguente:

public void setup(Context context) throws IOException, InterruptedException{ 
    Configuration conf = context.getConfiguration(); 
    Path[] localFiles = DistributedCache.getLocalCacheFiles(conf); 
    //etc 
}

Tuttavia, questo array localFiles è sempre nullo.

Inizialmente ero in esecuzione su un cluster host singolo per il test, ma ho letto che questo impedirà il funzionamento della cache distribuita. Ho provato con uno pseudo-distribuita, ma che non ha funzionato neanche

sto utilizzando Hadoop 1.0.3

grazie Peter

fonte

2012-12-06 Peter Cogan

possibile duplicato del [file non messo correttamente nella cache distribuita] (http://stackoverflow.com/questions/12708947/ files-not-put-correct-into-distributed-cache) – kabuko

problema qui era che stavo facendo la seguente:

Configuration conf = new Configuration(); 
Job job = new Job(conf, "wordcount"); 
DistributedCache.addCacheFile(new URI("/user/peter/cacheFile/testCache1"), conf);

Poiché il costruttore di lavoro esegue una copia interna dell'istanza conf, l'aggiunta del file di cache in seguito non influisce sulle cose. Invece, dovrei fare questo:

Configuration conf = new Configuration(); 
DistributedCache.addCacheFile(new URI("/user/peter/cacheFile/testCache1"), conf); 
Job job = new Job(conf, "wordcount");

E ora funziona. Grazie a Harsh sulla lista degli utenti di hadoop per l'aiuto.

fonte

2012-12-09 02:27:46

Harsh è davvero una manna dal cielo! .. Ho perso un bel numero di ore con lo stesso. Grazie! – Shatu

Configuration conf = new Configuration(); 
Job job = new Job(conf, "wordcount"); 
DistributedCache.addCacheFile(new URI("/userpetercacheFiletestCache1"),job.getConfiguration());

Si può anche fare in questo modo.

fonte

2013-02-11 09:53:51

Una volta che il lavoro è assegnato a un oggetto di configurazione, cioè Configuration conf = new Configuration();

Job job = new Job(conf, "wordcount");

E poi se accordo con attributi di conf come illustrato di seguito, per esempio

conf.set("demiliter","|");

DistributedCache.addCacheFile(new URI("/user/peter/cacheFile/testCache1"), conf);

Tali modifiche non si rifletterebbero in uno pseudo cluste r o cluster come mai funzionerebbe con l'ambiente locale.

fonte

2013-06-06 09:03:48 user2458922

Questa versione di codice (che è leggermente diversa dai costrutti sopra menzionati) ha sempre funzionato per me.

//in main(String [] args) 
Job job = new Job(conf,"Word Count"); 
... 
DistributedCache.addCacheFile(new URI(/user/peter/cacheFile/testCache1), job.getConfiguration());

non ho visto la funzione setup completo() nel codice Mapper

public void setup(Context context) throws IOException, InterruptedException { 

    Configuration conf = context.getConfiguration(); 
    FileSystem fs = FileSystem.getLocal(conf); 

    Path[] dataFile = DistributedCache.getLocalCacheFiles(conf); 

    // [0] because we added just one file. 
    BufferedReader cacheReader = new BufferedReader(new InputStreamReader(fs.open(dataFile[0]))); 
    // now one can use BufferedReader's readLine() to read data 

}

fonte

2014-08-10 00:12:28 Somum

Grazie @Somum, ha funzionato per me. Ho controllato con hadoop 1.2.1 –

Accesso ai file nella cache distribuita hadoop

risposta

Problemi correlati