2016-02-15 22 views
6

Persone, la società in cui lavoro ha alcuni database MySQL su AWS (Amazon RDS). Stiamo creando un POC con BigQuery e quello che sto cercando ora è come replicare le basi di BigQuery (i registri esistenti e quelli nuovi in ​​futuro). I miei dubbi sono:Sincronizzare Amazon RDS con Google BigQuery

  • Come replicare le tabelle e le righe MySQL su BigQuery. C'è qualche strumento per farlo (sto leggendo su Amazon Database Migration Service)? Devo replicare a Google Cloud SQL e esportarlo in BigQuery?
  • Come replicare i registri futuri? È possibile creare un lavoro all'interno di MySQL per inviare i nuovi registri dopo un numero predefinito? Ad esempio, dopo aver inserito 1000 nuove righe (o trascorso un certo tempo), alcuni eventi vengono "innescati" e i nuovi registri vengono copiati in Cloud SQL/BigQuery?

La mia idea iniziale è di scaricare la base originale, caricarla sull'altro e utilizzare uno script per ascoltare nuovi registri e inviarli alla nuova base.

Ho spiegato correttamente? È comprensibile?

+0

Io uso xplenty per fondamentalmente eseguire il mirror delle tabelle da mysql AWS RDS a BQ. Xplenty può rilasciare e ricreare i tavoli. Devi pagare per questo ma è molto veloce e facile. Potrebbe essere utile iscriversi alla pista per usarlo anche per poc. Questo è un po 'quello che ho fatto e lo sto ancora utilizzando, per cui concentriamoci maggiormente sulla rigidità più utile di come sto usando i dati in BQ. Potrebbe essere una soluzione rapida se letteralmente lo fai e devi essere veloce. – andrewm4894

risposta

1

Sarà necessario utilizzare uno degli strumenti ETL che dispongono dell'integrazione con MySQL e BigQuery per eseguire il trasferimento iniziale dei dati e copiare le successive modifiche a BigQuery. Dai uno sguardo alla lista degli strumenti disponibili [1]

Puoi anche implementare il tuo strumento sviluppando un processo che estrae i dati da mySQL a un file CSV e poi carica quel file in BigQuery usando l'importazione dei dati [2 ]

[1] https://cloud.google.com/bigquery/third-party-tools

[2] https://cloud.google.com/bigquery/loading-data-into-bigquery

2

In aggiunta a quanto detto Vadim, si può provare:

  • mysqldump in file CSV S3 (credo RDS permette che)
  • run "gsutil" utility Google Cloud Storage per copiare i dati da S3 a GCS
  • run "carico bq file.csv" per caricare il file da BigQuery

Sono interessato a sentire la vostra esperienza, quindi sentitevi liberi di chiamarmi in privato.

Problemi correlati