2010-12-29 9 views
5

vogliono capire se Netezza o Hadoop è la scelta giusta per le finalità di seguito:come funziona netezza? come si confronta con Hadoop?

  • file alimentazione tirare da diverse fonti online di notevoli dimensioni a volte più di un GB.

  • Pulito, il filtro, trasformare e calcolare ulteriori informazioni alle alimentazioni.

  • Genera metriche diverse dimensioni simile a come cubetti di data warehouse lo fanno, e

  • webapps di aiuto per accedere alle finali di dati/metriche più veloce utilizzando SQL o altri meccanismi standard.

risposta

5

Come funziona:
Poiché i dati vengono caricati nell'apparecchio, si separa intelligentemente ogni tabella di tutti i 108 SPU.
In genere, il disco rigido è la parte più lenta di un computer. Immagina 108 di questi giri in una volta, caricando un piccolo pezzo del tavolo. Ecco come Netezza raggiunge un tempo di caricamento di 500 Gigabyte all'ora.
Dopo che una parte della tabella viene caricato e memorizzati su ciascun SPU (computer su una scheda di circuito integrato), ogni colonna viene analizzata per ottenere statistiche descrittive quali i valori minimo e massimo. Questi valori sono memorizzati su ciascuno dei 108 SPU, invece di indici, che prendono tempo per creare, aggiornati e occupano spazio inutile .
Immagina il tuo ambiente senza la necessità di creare indici. Quando è il momento di interrogare i dati, un computer master all'interno dell'appliance interroga le SPU per vedere quali contengono i dati richiesti.
Solo le SPU che contengono dati appropriati restituiscono le informazioni, quindi meno movimenti di informazioni attraverso la rete al server Business Intelligence/Analytics. Per unire i dati, migliora ancora.
L'appliance distribuisce i dati in più tabelle su più SPU mediante una chiave. Ogni SPU contiene dati parziali per più tabelle.Unisce le parti di ciascuna tabella localmente su ciascuna SPU restituendo solo il risultato locale. Tutti i "risultati locali" vengono assemblati internamente nel cabinet e quindi restituiti al server Business Intelligence/Analytics come risultato della query. Questa metodologia contribuisce anche allo alla storia della velocità.
La chiave di tutto questo è "meno movimento di dati attraverso la rete". L'appliance restituisce solo i dati richiesti al server Business Intelligence/Analytics attraverso la rete 1000/100 MB dell'organizzazione.
Questo è molto diverso dall'elaborazione tradizionale in cui il software Business Intelligence/Analytics in genere estrae la maggior parte dei dati dal database per eseguire l'elaborazione sul proprio server. Il database fa funzionare il per determinare i dati necessari, restituendo un risultato di sottoinsieme più piccolo al server Business Intelligence/Analytics .
Backup e ridondanza
Per capire in che modo i dati e il sistema sono impostati per un uptime quasi del 100%, è importante comprendere il progetto interno . Utilizza la parte esterna, più veloce, di un terzo di ciascun disco da 400 gigabyte per l'archiviazione dei dati e il recupero di . Un terzo del disco memorizza le statistiche descrittive e l'altro terzo memorizza il backup dei dati hot delle altre SPU . Ogni armadio Appliance contiene inoltre 4 SPU aggiuntive per il failover automatico di una qualsiasi delle 108 SPU .
Ha preso da http://www2.sas.com

+1

Voglio solo ricordare che le attuali velocità di caricamento su Netezza Systems sono ora 2TB +/ora. – cairnz

2

Vorrei prendere in considerazione la progettazione separata del processo ETL batch e ulteriori richieste SQL. Penso che i numeri seguenti siano importanti per valutare le decisioni:

a) Quanti dati di riga si desidera elaborare giornalmente?
b) Quanti dati di riga si desidera memorizzare nel sistema?
c) Quale sarà la dimensione del set di dati RDBMS.
d) Che tipo di SQL avete intenzione di avere? Qui intendo: ci sono SQL ad hoc o report ben pianificati. Altre domande: hai bisogno di jon tra due grandi tavoli.

Con domande di cui sopra, rispondendo sarà possibile dare risposte migliori. Ad esempio, considererei Netezza come opzione quando hai bisogno di join di tabelle molto grandi, e hadoop - se hai bisogno di memorizzare terabyte di dati.

+0

sqls ad hoc devono essere sostenuti e sono più spesso utilizzati. – sandeepkunkunuru

+0

sì, ora ci sono tre grandi tabelle che pubblicano ETL. La maggior parte delle query si trova su una di queste tabelle o sul cubo creato utilizzando queste tabelle. Ma è previsto che i join verranno richiesti in futuro. – sandeepkunkunuru

2

Sembrerebbe dalle vostre risposte che Netezza può essere più adatto alle vostre esigenze. Gestisce le query ad hoc molto bene e la versione più recente del loro software ha incorporato il supporto per i rollup e i cubi. Inoltre, Netezza opera su una scala di terabyte di dati, quindi dovresti essere più che in grado di elaborare i dati che hai a disposizione.

0

Se avete a che fare con ELT scenario in cui si deve caricare enormi volumi di file e di processo in un secondo momento come filtro, trasformare e caricarlo di tranditional database per l'analisi, è possibile utilizzare Hadoop per caricare i file e poi Netezza come area di gestione temporanea o di data warehouse di destinazione. Con hadoop puoi mettere tutti i tuoi file in HDFS e poi leggere usando lo strumento ETL per trasformare, filtrare, ecc. O usare Hive SQL per scrivere i tuoi dati in quei file. Tuttavia, HIve data warehouse basato su hadoop non supporta gli aggiornamenti e non supporta tutte le istruzioni SQL. Quindi, è meglio leggere quei file da HDFS, applicare filtri, trasformare e caricare i risultati nell'appliance di data warehouse tradizionale come netezza per scrivere le query per i cubi.

Se si caricano quotidianamente GB di dati su netezza con landing, staging e mart area, molto probabilmente si finirà per utilizzare molto spazio. In questo scenario puoi fare in modo che il tuo spazio di atterraggio sia su hadoop e quindi rendere le aree di staging e mart come netezza. Se le tue domande sono semplici e non stai facendo un filtraggio molto complesso, ecc. O gli aggiornamenti dei sorgenti potrebbero essere gestibili con hasdoop.

Per concludere, hadoop è ideale per enormi volumi di dati ma non supporta tutte le funzionalità di un data warehouse tradizionale.

È possibile controllare questo link per vedere le differenze: http://dwbitechguru.blogspot.ca/2014/12/how-to-select-between-hadoop-vs-netezza.html

Problemi correlati