2009-02-23 17 views
16

Sto facendo qualche lettura, e mi sono imbattuto evitando un internalStore se la mia applicazione non ha bisogno di massaggiare i dati prima di essere inviati a SQL. Cos'è un massaggio di dati?Che cosa significa "Data Massage"?

+26

A volte i dati si sovraccaricano di lavoro e famiglia e devono rilassarsi. A volte i dati pagano di più per un "lieto fine" e sono ordinati davvero bene. = oD – Echostorm

risposta

18

Manipolare, elaborare, modificare, ricalcolare. In breve, se si stanno semplicemente spostando i dati in raw, non è necessario utilizzare internalStore, ma se si sta facendo qualcosa prima dell'archiviazione, è possibile che si desideri un internalStore.

-Adam

+0

La purezza dei dati non dovrebbe mai essere presa naturalmente. :) – EBGreen

+1

No, non si dovrebbe mai fidarsi implicitamente dell'input del programma di alcun tipo. Semplici controlli, tuttavia, potrebbero non essere considerati massaggianti in quanto non si stanno toccando i dati - semplicemente sbirciando. –

+1

Questo è vero. La mia esperienza con il massaggio è quasi sempre stata quella di ripulire i dati già in un archivio dati immesso da un altro sistema su cui non ho alcun controllo. – EBGreen

3

Clean up, la normalizzazione, il filtraggio, ... Basta modificare i dati in qualche modo dalla input originale in una forma che è più adatto a vostro uso.

14

A volte l'intero processo di spostamento dei dati viene definito "ETL" che significa "Estrai, Trasforma, Carica". Massaggiare i dati è il passaggio "trasforma", ma implica correzioni ad-hoc che devi fare per appianare i problemi che hai riscontrato (come un massaggio ai tuoi muscoli) piuttosto che le trasformazioni tra formati noti.

Pensa che si potrebbe fare per i dati "massaggio" includono:

  • Cambia formati da ciò che il sistema sorgente emette a quello che si aspetta che il sistema di destinazione, per esempio cambia il formato della data da d/m/y a m/g/a.
  • sostituire i valori mancanti con i valori predefiniti, ad es. Fornire "0" quando non viene fornita una quantità.
  • Filtra i record non necessari nel sistema di destinazione.
  • Verificare la validità dei record e ignorare o segnalare sulle righe che potrebbero causare un errore se si è tentato di inserirli.
  • Normalizza i dati per rimuovere le variazioni che dovrebbero essere uguali, ad es. sostituire la maiuscola con la minuscola, sostituire "01" con "1".
1

E infine c'è la pratica meno salutare di massaggiare i dati buttando fuori i dati (o regolando i numeri) quando non ti danno la risposta che vuoi. Unfortunatley peole facendo analisi statistiche spesso massaggia i dati per sbarazzarsi di quei fastidiosi valori anomali che confutano la loro teoria. A causa di questa pratica, fare riferimento alla pulizia dei dati come ammassare i dati è inappropriato. Pulire i dati per renderlo qualcosa che può andare nel tuo sistema (eliminando date insignificanti come il 30 giugno 2009 perché qualcun altro li ha memorizzati in varchar anziché come date, separando il nome e il cognome in campi separati, correggendo tutti i dati maiuscoli , aggiungere valori predefiniti per i campi che richiedono dati quando i dati forniti non sono forniti, ecc.) è una cosa: massaggiare i dati implica una pratica di aggiustamento inadeguato dei dati.