6

Sto tentando di copiare un gruppo di file CSV da S3 a Redshift utilizzando RedShiftCopyActivity e una datapipeline.Datapipeline AWS RedShiftCopyActivity - come specificare "colonne"

Questo funziona bene finché la struttura csv corrisponde alla struttura della tabella. Nel mio caso il csv ha meno colonne della tabella e quindi RedShiftCopyActivity fallisce con un errore "Delimitatore non trovato" in stl_load_errors.

Vorrei utilizzare l'opzione "colonne" del comando di copia di redshift. In questo modo posso farlo funzionare, ma la parte delle colonne del comando di copia redshift non sembra essere disponibile in RedShiftCopyActivity.

Qualche suggerimento?

Tutti i suggerimenti sono stati accolti calorosamente.

Molte grazie in anticipo.

Peter

+0

Hai mai trovare una soluzione a questo problema? – Erve1879

+1

Nessuna soluzione. Siamo stati in grado di evitare il problema sviluppando uno script python avviato dalla pipeline e che richiama il comando redshift copy. Meno elegante di quanto vorrei ma almeno funziona. – Peter

+0

Grazie a @Peter. Come succede, ho appena scritto uno script Python per sostituire l'intera pipeline dei dati. Ha avuto problemi infiniti con redshiftCopyActivity e la console di Data Pipeline. – Erve1879

risposta

1

So che questo è una vecchia questione, ma ora è possibile specificare un elenco di colonne del comando Redshift COPY.

COPY tablename (column1 [,column2, ...]) 

Durante il caricamento dei dati da S3, l'ordine delle colonne deve corrispondere all'ordine dei dati di origine. Controlla i documenti qui: Amazon Redshift Column Mapping Options.

Radu

+0

Grazie per avermi fatto conoscere Radu. Abbiamo rinunciato a DataPipeLine e abbiamo scritto uno script python. Per ora in esecuzione su un'istanza di ec2, ma suppongo che possiamo prendere in considerazione il passaggio a lambda. – Peter

+0

C'è un post davvero buono su Amazon Redshift e Lambda. Lo usiamo già e funziona come un fascino. Dovresti verificarlo: [A Loader database Redshift Amazon-Zero Administration (https://blogs.aws.amazon.com/bigdata/post/Tx24VJ6XF1JVJAA/A-Zero-Administration-Amazon-Redshift-Database-Loader) –

+0

Grazie per il consiglio! – Peter

Problemi correlati