Ho davvero faticato a rendere SQL Server in qualcosa che, francamente, non lo sarà mai. Ho bisogno di un motore di database per il mio lavoro analitico. Il DB deve essere veloce e NON ha bisogno di tutte le registrazioni e altri sovraccarichi trovati nei database tipici (SQL Server, Oracle, DB2, ecc.)Archivi colonne: confronto dei database basati su colonne
Ieri ho ascoltato Michael Stonebraker speak at the Money:Tech conference e ho continuato a pensare: "Non sono veramente pazzo, c'è un modo migliore! " Parla dell'uso di column stores invece dei database orientati alle righe. Sono andato alla pagina di Wikipedia per column stores e vedo alcuni progetti open source (che mi piacciono) e alcuni progetti commerciali/open source (che non comprendo appieno).
La mia domanda è questa: in un ambiente analitico applicato, come differiscono i diversi DB basati su colonne? Come dovrei pensare a loro? Qualcuno ha esperienza pratica con più sistemi basati su colonne? Posso sfruttare la mia esperienza SQL con questi DB o dovrò imparare una nuova lingua?
Alla fine sto per inserire i dati in R per l'analisi.
MODIFICA: Sono stato richiesto per alcuni chiarimenti in cosa esattamente sto cercando di fare. Quindi, ecco un esempio di cosa vorrei fare: Creare una tabella che abbia 4 milioni di righe e 20 colonne (5 dim, 15 fatti). Crea 5 tabelle di aggregazione che calcolano il massimo, il minimo e la media per ciascuno dei fatti. Unisci quelle 5 aggregazioni alla tabella di partenza. Calcolare ora la deviazione percentuale dalla media, la deviazione percentuale di min e la deviazione percentuale dal massimo per ogni riga e aggiungerla alla tabella originale. I dati di questa tabella non ricevono nuove righe ogni giorno, vengono TOTALMENTE sostituiti e il processo viene ripetuto. Il cielo non vuole se il processo deve essere fermato. E i registri ... ohhhhh i registri! :)
Qual è lo strumento ETL più semplice da utilizzare per LucidDB? Bollitore? –
JD, hai finalmente dato a LucidDB una prova da R? Il modo RJDBC funziona perfettamente con LucidDB? Desideroso di conoscere la tua esperienza. –
Qui ho scritto un confronto tra diversi database orientati alle colonne: http://www.timestored.com/time-series-data/column-oriented-databases –