Abbiamo molti dati di interazione dell'utente da vari siti Web archiviati in Cassandra come cookie, visite alla pagina, annunci visualizzati, clic sugli annunci, ecc. Che vorremmo fare riferire su Il nostro attuale schema di Cassandra supporta il reporting e l'interrogazione di base. Tuttavia, vorremmo anche creare query di grandi dimensioni che coinvolgessero in genere join su famiglie di colonne di grandi dimensioni (contenenti milioni di righe).Analitica e data mining di dati seduti su Cassandra
Quale approccio è più adatto per questo? Una possibilità è estrarre i dati in un database relazionale come mySQL e fare il data mining qui. Alternativo potrebbe essere quello di tentare l'uso di hadoop con alveare o maiale per eseguire la mappa ridurre le query per questo scopo? Devo ammettere che non ho esperienza con quest'ultimo.
Chiunque ha esperienza delle differenze di prestazioni in una contro l'altra? Vuoi eseguire la mappa ridurre le query su un'istanza di produzione di Cassandra in tempo reale o su una copia di backup per evitare che il carico della query influenzi le prestazioni di scrittura?
Ciao Tyler, grazie mille! Hai sollevato una prospettiva estremamente interessante! Puoi indicarmi qualche documentazione che dettaglia la capacità di DSE di dedicare una parte di un cluster di Cassandra all'analisi? –
Ho difficoltà a trovare una singola pagina che riepiloga, ma ho letto su [NetworkTopologyStrategy] (http://www.datastax.com/docs/1.1/cluster_architecture/replication#networktopologystrategy) (se non hai familiarità con esso). I dati CFS hanno solo repliche nell'analisi "DC", ei dati di Cassandra hanno repliche in entrambi. I normali nodi Cassandra possono scrivere su LOCAL_QUORUM e i nodi di analisi possono leggere su LOCAL_QUORUM, quindi nessuno dei due controller avrà un impatto significativo sulle prestazioni dell'altro. Questo può anche essere utile: http://www.datastax.com/docs/1.1/cluster_architecture/about_client_requests –
Grazie Tyler, sono stato in grado di leggere sull'argomento e questo risolve molti dei nostri problemi. Cercheremo sicuramente di procedere con questo approccio. –