2014-10-13 11 views
16

Confronto tra Google BigQuery e Amazon Redshift mostra che entrambi possono rispondere allo stesso insieme di requisiti, differiscono principalmente dai piani di costi. Sembra che Redshift sia più complesso da configurare (definire chiavi e lavoro di ottimizzazione) rispetto a Google BigQuery che forse ha un problema con l'unione delle tabelle.Pro e contro di BigQuery rispetto a Amazon Redshift

Esiste un elenco di confronti pro & di Google BigQuery rispetto a Amazon Redshift?

+1

Prova quorum, la sua domanda è più adatto lì ... –

+0

un'occhiata a http://www.quora.com/How -good-is-Googles-Big-Query-come-rispetto-a-Amazons-Red-Shift –

+0

Naturalmente ho guardato lì, ho pensato che avrei potuto ottenere un'altra prospettiva dal punto di vista dello sviluppo e dell'integrazione pura. Grazie comunque. – user2339344

risposta

10

Amazon Redshift è un database SQL standard (basato su Postgres) con funzionalità MPP che gli consentono di scalare. Queste funzionalità richiedono anche di conformare in qualche modo il modello di dati per ottenere le migliori prestazioni. Supporta una grande quantità di standard SQL e la maggior parte degli strumenti che possono parlare con Postgres può usarlo invariato.

BigQuery non è un database, in the sense that there it doesn't use standard SQL and doesn't provide JDBC/ODBC connectivity. È un servizio unico con le proprie API e interfacce. Fornisce un supporto limitato per le query SQL ma la maggior parte degli utenti interagisce con codice personalizzato (Java, Python, ecc.). Alcuni strumenti di terze parti hanno aggiunto il supporto per BigQuery ma gli strumenti esistenti non funzioneranno senza modifiche.

tl; dr - Redshift è migliore per l'interazione con strumenti esistenti e l'utilizzo di SQL complessi. BigQuery è migliore per interazioni e team codificati personalizzati che non amano SQL.

AGGIORNAMENTO 2017-04-17 - Ecco un riepilogo molto più aggiornato delle differenze di costo e velocità (avvolto in un pitch di vendita in modo YMMV). TL; DR - Redshift è solitamente più veloce e sarà più economico se si interrogano i dati un po 'regolarmente. http://blog.panoply.io/a-full-comparison-of-redshift-and-bigquery

+3

BQ è un db distribuito colonnare. Può essere interrogato facilmente con il proprio accento SQL. Le principali differenze sarebbero la facilità di integrazione con gli strumenti standard db, etl, ui, qui il redshift ha un vantaggio minore. E lo sforzo richiesto per l'amministrazione, qui bq ha qualche vantaggio. –

+2

OK, il punto giusto, BQ è _technically_ un 'database colonnare' e _practically_ non è un 'database' nel senso di supportare le connessioni JDBC/ODBC dalla miriade di strumenti esistenti. –

+2

È in circolazione da tre anni ed è basato sulla stessa tecnologia utilizzata da Google. Perché dovresti pensare che sarà abbandonato? Google ha abbandonato altre tecnologie cloud? – aronchick

30

Ho pubblicato questo confronto su reddit. Rapidamente un praticante RedShift a lungo termine è venuto a commentare le mie dichiarazioni. Si prega di vedere https://www.reddit.com/r/bigdata/comments/3jnam1/whats_your_preference_for_running_jobs_in_the_aws/cur518e per la conversazione completa.

Dimensionamento cluster:

  • Redshift vi chiederà di scegliere un numero di CPU, RAM, HD, ecc e per accenderli.
  • BigQuery non si preoccupa. Usalo quando vuoi, senza bisogno di provisioning.

costi orari in cui non fare nulla:

  • Redshift vi chiederà di pagare per ogni ora di ognuno di questi server che eseguono, anche quando si sta facendo nulla.
  • Quando inattivo BigQuery addebita solo $ 0,02 al mese per GB memorizzati. 2 centesimi al mese per GB, il gioco è fatto.

velocità di query:

  • prestazioni Redshift è limitata dalla quantità di CPU si sta pagando per
  • BigQuery porta trasparente in quante più risorse necessarie per eseguire la query in pochi secondi.

indicizzazione:

  • Redshift vi chiederà di indice (correzione: distribuire i) i vostri dati sotto determinati criteri, e sarete solo in grado di eseguire le query rapide sulla base di questo indice.
  • BigQuery non ha indici. Ogni operazione è veloce.

Aspirazione:

  • Redshift richiede una manutenzione periodica e operazioni 'vuoto' che durano ore. Stai pagando per ognuna di queste ore del server.
  • BigQuery no. Dimenticatevi di passare l'aspirapolvere.

partizionamento dei dati e la distribuzione:

  • Redshift richiede di pensare a come distribuire i dati all'interno dei server per mantenere le prestazioni fino - ottimizzazione che funziona solo per determinate query.
  • BigQuery no. Esegui semplicemente qualsiasi query tu voglia.

streaming di dati in tempo reale: (?)

  • impossibile con Redshift.
  • BigQuery gestisce facilmente l'importazione di fino a 100.000 righe al secondo per tabella.

Crescere cluster:

  • Se si dispone di più dati, o più utenti simultanei di scaling up saranno dolorose con Redshift.
  • BigQuery funzionerà.

zona Multi:

  • Volete un Redshift multizona per la disponibilità e l'integrità dei dati? Doloroso.
  • BigQuery è multi-zonato per impostazione predefinita.

Per provare BigQuery non è necessario disporre di una carta di credito o di un orario di configurazione. Provalo (quick instructions to try BigQuery).

Quando si è pronti a inserire i propri dati in BigQuery, è sufficiente copiare i registri separati di nuova linea JSON da Google Cloud Storage e importarli.

Vedere questo in guida approfondita ai prezzi data warehouse sulla nuvola: Understanding Cloud Pricing Part 3.2 - More Data Warehouses

+0

"Per provare BigQuery non hai bisogno di una carta di credito" non sembra più vero - ho dovuto aggiungere i dati della carta di credito per impostare la prova gratuita. O c'è ancora un modo? – user3853657

+1

Prova https://cloud.google.com/blog/big-data/2017/01/how-to-run-a-terabyte-of-google-bigquery-queries-each-month-without-a-credit- carta –

Problemi correlati