Configurazione dell'origine dati esterna per Elastic MapReduce

Vogliamo utilizzare Amazon Elastic MapReduce sopra il nostro DB corrente (stiamo utilizzando Cassandra su EC2). Osservando le FAQ di Amazon EMR, dovrebbe essere possibile: Amazon EMR FAQ: Q: Can I load my data from the internet or somewhere other than Amazon S3?Configurazione dell'origine dati esterna per Elastic MapReduce

Tuttavia, quando si crea un nuovo flusso di lavoro, è possibile configurare un bucket S3 solo come origine dei dati di input.

Eventuali idee/campioni su come fare questo?

Grazie!

P.S .: ho visto questa domanda How to use external data with Elastic MapReduce ma le risposte in realtà non spiegano come farlo/configurarlo, semplicemente che è possibile.

Provare a utilizzare scp per copiare i file per l'istanza di EMR:

my-desktop-box$ scp mylocaldatafile my-emr-node:/path/to/local/file

(o utilizzare ftp, o wget o curl, o qualsiasi altra cosa che si desidera)

quindi accedere al tuo esempio EMR con ssh e caricarlo in hadoop:

my-desktop-box$ ssh my-emr-node 
    my-emr-node$ hadoop fs -put /path/to/local/file /path/in/hdfs/file

2013-03-27 05:53:33 Christopher

Come sono stai elaborando i dati? EMR è appena gestito hadoop. Hai ancora bisogno di scrivere un processo di qualche tipo.

Se si sta scrivendo un lavoro Hadoop Mapreduce, si sta scrivendo java e si può utilizzare l'apis Cassandra per accedervi.

Se si desidera utilizzare qualcosa come hive, è necessario scrivere un gestore di archiviazione Hive per utilizzare i dati supportati da Cassandra.

2013-06-24 05:46:22 prestomation

risposta