Sto costruendo il mio primo datawarehouse in SQL 2008/SSIS e sto cercando alcune best practice sul caricamento delle tabelle dei fatti.SQL/SSIS DataWareHouse Caricamento della tabella dei fatti, best practice?
Attualmente nel mio DW ho circa 20 dimensioni (uffici, dipendenti, prodotti, clienti, ecc.) Che sono di tipo 1 SCD. Nella mia struttura DW, ci sono alcune cose che ho già applicati:
- Non Null (sostituito con vuoto per il testo o 0 per numerici durante la messa in scena)
- membri chiave sconosciuti popolate in ogni dimensione (SK ID 0)
- UPSERT per tipo SCD 1 caricamento da stadio a tavola produzione
- SELECT DISTINCT mio carico di dimensioni
Nel mio Fact progetto caricamento SSIS, l'attuale metodo ho per dimensioni caricamento è avendo più ricerche (20+) su ciascuno dei DIM, quindi compilando la tabella FACT con i dati.
Per le mie ricerche ho impostato:
- cache piena
- Ignora guasti per "nessuna voce matching"
- Trasformazione Derivato con "ISNULL (surrogate_idkey) 0:? Surrogate_idkey" per ogni SK in modo che se le ricerche falliscono, verranno automaticamente impostate su SK ID 0 (membro sconosciuto).
- Alcuni dei miei ricerche di quota hanno più di una chiave di business
È questo l'approccio migliore? Immagini allegate per aiutare con la mia descrizione sopra.
Grazie Banton, attualmente stiamo caricando (pieno dump) record di 4m che contengono circa 200 colonne; e circa 2k file di nuovi record ogni giorno; la fase di carico è abbastanza veloce. Grazie per il feedback. – exxoid
[SEGUI, UTILIZZA E CONDIVIDI l'iniziativa per il sito BI dedicato.] (Http://area51.stackexchange.com/proposals/70503/business-intelligence?referrer=EPHSm8-3avvaMxLjdRIeNg2). Ho prima sollevato questa domanda in [Meta quando non c'erano proposte di siti BI.] (Http://meta.stackexchange.com/q/232414/201662) – bonCodigo