Ho un grande database Mongo (100 GB) ospitato nel cloud (MongoLab o MongoHQ). Vorrei eseguire alcune attività di Map/Reduce sui dati per calcolare alcune statistiche costose e mi chiedevo quale sia il miglior flusso di lavoro per ottenere questo risultato. Idealmente mi piacerebbe usare i servizi Map/Reduce di Amazon per fare questo invece di mantenere il mio cluster Hadoop.Qual è il modo migliore per eseguire Map/Reduce su dati da Mongo?
Ha senso copiare i dati dal database a S3. Quindi esegui Amazon Map/Reduce su di esso? O ci sono modi migliori per farlo.
Anche se più avanti sulla linea potrei voler eseguire le query frequentemente come ogni giorno, quindi i dati su S3 dovrebbero rispecchiare ciò che è in Mongo questo complicherebbe le cose?
Qualsiasi suggerimento/racconto di guerra sarebbe di grande aiuto.