Vogliamo utilizzare Amazon Elastic MapReduce sopra il nostro DB corrente (stiamo utilizzando Cassandra su EC2). Osservando le FAQ di Amazon EMR, dovrebbe essere possibile: Amazon EMR FAQ: Q: Can I load my data from the internet or somewhere other than Amazon S3?Configurazione dell'origine dati esterna per Elastic MapReduce
Tuttavia, quando si crea un nuovo flusso di lavoro, è possibile configurare un bucket S3 solo come origine dei dati di input.
Eventuali idee/campioni su come fare questo?
Grazie!
P.S .: ho visto questa domanda How to use external data with Elastic MapReduce ma le risposte in realtà non spiegano come farlo/configurarlo, semplicemente che è possibile.