5

Quando ho letto sulla pipeline di dati AWS l'idea ha colpito immediatamente - produrre statistiche per kinesis e creare un lavoro in pipeline che consumerà dati da kinesis e COPY a redshift ogni ora. Tutto in una volta.Come copiare i dati in blocco da Kinesis -> Redshift

Ma sembra che non ci siano nodi nella pipeline che possono consumare kinesis. Quindi ora ho due possibili piani di azione:

  1. Creare un'istanza in cui i dati di Kinesis verranno consumati e inviati a S3 suddiviso per ore. La pipeline copierà da lì a Redshift.
  2. Consumo da Kinesis e produzione di COPY direttamente su Redshift sul posto.

Cosa devo fare? Non c'è modo di connettere Kinesis a redshift usando solo i servizi AWS, senza codice personalizzato?

risposta

5

Ora è possibile farlo senza codice utente tramite un nuovo servizio gestito denominato Kinesis Firehose. Gestisce gli intervalli di buffer desiderati, i caricamenti temporanei su s3, il caricamento su Redshift, la gestione degli errori e la gestione automatica del throughput.

+0

Questo sembra esattamente quello che stavo cercando in quel momento. Grazie. – FXGlory

2

Questo è già stato fatto per te! Se si utilizza il connettore Biblioteca Kinesis, è presente un connettore integrato per spostamento verso il rosso

https://github.com/awslabs/amazon-kinesis-connectors

A seconda della logica è necessario elaborare il connettore può essere davvero facile da implementare.

+0

Stavo cercando di creare un qualche tipo di meccanismo senza codice utente, ma al momento non sembra possibile. E comincio a pensare che non sia fattibile a causa della natura cinetica - è solo una coda, apache kafka con steroidi. Accetterò la risposta perché è l'unica possibile. Grazie! – FXGlory

+0

Questo connettore personalizzato, che esegue copie di massa da Kinesis -> Redshift ogni ora, viene caricato su AWS? –

+0

Non sono sicuro di aver capito la tua domanda, ma sì, se usi il connettore da Kinesis a Redshift, allora sì tutti i dati sono memorizzati nel data warehouse AWS Redshift. La parte "ogni ora" è configurabile. –

0

È possibile creare e orchestrare la pipeline completa con InstantStack per leggere i dati da Kinesis, trasformarli e inserirli in qualsiasi Redshift o S3.

Problemi correlati