2012-08-29 12 views
10

Vogliamo utilizzare Amazon Elastic MapReduce sopra il nostro DB corrente (stiamo utilizzando Cassandra su EC2). Osservando le FAQ di Amazon EMR, dovrebbe essere possibile: Amazon EMR FAQ: Q: Can I load my data from the internet or somewhere other than Amazon S3?Configurazione dell'origine dati esterna per Elastic MapReduce

Tuttavia, quando si crea un nuovo flusso di lavoro, è possibile configurare un bucket S3 solo come origine dei dati di input.

Eventuali idee/campioni su come fare questo?

Grazie!

P.S .: ho visto questa domanda How to use external data with Elastic MapReduce ma le risposte in realtà non spiegano come farlo/configurarlo, semplicemente che è possibile.

risposta

0

Provare a utilizzare scp per copiare i file per l'istanza di EMR:

my-desktop-box$ scp mylocaldatafile my-emr-node:/path/to/local/file 

(o utilizzare ftp, o wget o curl, o qualsiasi altra cosa che si desidera)

quindi accedere al tuo esempio EMR con ssh e caricarlo in hadoop:

my-desktop-box$ ssh my-emr-node 
    my-emr-node$ hadoop fs -put /path/to/local/file /path/in/hdfs/file 
1

Come sono stai elaborando i dati? EMR è appena gestito hadoop. Hai ancora bisogno di scrivere un processo di qualche tipo.

Se si sta scrivendo un lavoro Hadoop Mapreduce, si sta scrivendo java e si può utilizzare l'apis Cassandra per accedervi.

Se si desidera utilizzare qualcosa come hive, è necessario scrivere un gestore di archiviazione Hive per utilizzare i dati supportati da Cassandra.

Problemi correlati