Sto lavorando ad un progetto che si occupa di analizzare una grande quantità di dati, quindi ho scoperto MapReduce abbastanza recentemente, e prima di immergermi ulteriormente, vorrei assicurarmi che le mie aspettative fossero corrette.MapReduce è giusto per me?
L'interazione con i dati avverrà da un'interfaccia Web, quindi il tempo di risposta è fondamentale qui, sto pensando a un limite di 10-15 secondi. Supponendo che i miei dati verranno caricati in un file system distribuito prima di eseguire qualsiasi analisi su di esso, che tipo di prestazioni posso aspettarmi da esso?
Diciamo che ho bisogno di filtrare un semplice file XML da 5 GB che è ben formato, ha una struttura dati abbastanza piatta e 10.000.000 di record. E diciamo che l'output produrrà 100.000 record. Sono possibili 10 secondi?
Se si, che tipo di hardware sto guardando? Se no, perché no?
Ho messo giù l'esempio, ma ora desidero che non l'abbia fatto. 5GB era solo un esempio di cui stavo parlando e in realtà avrei a che fare con molti dati. 5 GB potrebbero essere dati per un'ora del giorno e potrei voler identificare tutti i record che soddisfano determinati criteri.
Un database non è davvero un'opzione per me. Quello che volevo scoprire è quale sia la prestazione più veloce che posso aspettarmi dall'uso di MapReduce. È sempre in minuti o ore? Non è mai secondi?
Considerare che Ridurre mappa consiste nell'inviare un calcolo ai dati (memorizzati su più macchine che operano sul loro pezzo). Un singolo file da 5 GB non si adatta perfettamente al modello. – z5h
MapReduce è eccessivo per un file da 5 GB. Puoi gestirlo su una macchina, soprattutto se cambia solo una volta al giorno. Inoltre, MapReduce è un concetto, non una reale implementazione. Se lo aveste usato, vorreste investigare su particolari implementazioni. –
Se MapReduce (o qualsiasi altro concetto) è la cosa giusta da usare dipende fortemente dal tipo di analisi che hai in mente, quanto spesso i tuoi dati cambiano, in che modo e che tipo di pre-elaborazione è possibile. Devi assolutamente fornire maggiori dettagli prima di aspettarti di ottenere una risposta utile! –