2014-11-21 9 views
6

Io uso il mio log API per estrarre informazioni come:Hbase vs Cassandra: quale è meglio per l'archiviazione dei dati di una volta?

  • In questo periodo di tempo quanti sono gli utenti del mio API?
  • O in questo periodo di tempo, che tipo di servizi sono chiamati più?

Quasi tutte le informazioni estratte dipendono dal timestamp. In realtà io uso MongoDB e ho aggiunto il timestamp come indice (per 80 GB, la dimensione degli indici è di 12 GB).

Per me è stata consigliata una migrazione verso cassandra o Hbase. E voglio sapere quale è meglio per il mio caso d'uso:

  • Analisi per i dati di tempi.
  • Sono richieste entrambe buone prestazioni di scrittura e lettura.
  • Possibilità di utilizzare hadoop per eseguire l'analisi dei dati.

Grazie per aver condiviso il tuo punto di vista o la tua esperienza.

risposta

-1

Gelato al cioccolato o alla vaniglia - che è meglio?

Suggerirei che sarebbe il miglior decisore. Imposta gli ambienti di sviluppo per ciascuna opzione, e questo ti dirà molto di più sui problemi operativi e di ottimizzazione di quanto, penso, chiunque altro potrebbe darti. :)

5

Vantaggi di Cassandra: Cassandra generalmente mostra prestazioni migliori (sebbene entrambe siano eccellenti). Cassandra è sostanzialmente più semplice da configurare e gestire da un punto di vista operativo (sebbene ci siano strumenti che aiuteranno in entrambi i modi).

Vantaggi di HBase: nativi per l'ecosistema Hadoop

HBase richiederà l'installazione si Hadoop in ogni caso, e si ottiene una bella due-per-uno. Per usare Cassandra probabilmente dovrai usare DataStax Enterprise, un prodotto commerciale non open source, o investigare usando Spark per il tuo lavoro di analisi che ha un connettore open source con Cassandra.

+0

A seconda del tipo di ambiente in cui si sta lavorando, ottenere DataStax Enterprise potrebbe essere gratuito. – mildewey

+0

È per distribuzione commerciale quindi è pagato. Ma Datastax è indispensabile quando utilizzo Hadoop con Cassandra? – Mouna

+3

Utilizziamo Apache Spark con Apache Cassandra (senza DataStax Enterprise). Mentre dovevo scrivere alcuni script iniziali per l'automazione, far funzionare le cose era abbastanza semplice. DSE fornisce l'integrazione OOB di Hadoop/Solr/Spark/etc., mentre è necessario eseguire lo script di ciò che è necessario per le versioni di apache. Se tutto quello che stai cercando è l'analisi delle serie temporali + query, Spark + Cassandra farà di più del lavoro, mentre non ti richiede di configurare Hadoop. – ashic

Problemi correlati