Vorrei confrontare due serie di dati e identificare specifiche istanze di discrepanze tra di esse (ad esempio, quali variabili erano diverse).Identificazione delle differenze specifiche tra due serie di dati in R
Mentre ho trovato il modo di identificare quali record non sono identici tra i due insiemi di dati (utilizzando la funzione dettagliato qui: http://www.cookbook-r.com/Manipulating_data/Comparing_data_frames/), io non sono sicuro di come bandiera che variabili sono diversi.
E.g.
dati impostato A: insieme
id name dob vaccinedate vaccinename dose
100000 John Doe 1/1/2000 5/20/2012 MMR 4
100001 Jane Doe 7/3/2011 3/14/2013 VARICELLA 1
dati B:
id name dob vaccinedate vaccinename dose
100000 John Doe 1/1/2000 5/20/2012 MMR 3
100001 Jane Doee 7/3/2011 3/24/2013 VARICELLA 1
100002 John Smith 2/5/2010 7/13/2013 HEPB 3
voglio identificare quali record sono diversi, e quale variabile specifico (s) hanno discrepanze. Ad esempio, il record di John Doe ha 1 discrepanza in dose
e il record di Jane Doe ha 2 discrepanze: in name
e vaccinedate
. Inoltre, il set di dati B ha un record aggiuntivo che non era nel set di dati A, e vorrei anche identificare queste istanze.
Alla fine, l'obiettivo è trovare la frequenza dei "tipi" di errori, ad es. quanti record hanno una discrepanza in vaccinato, vaccinename, dose, ecc.
Grazie!
Prova la [distanza di Hamming] (https://en.wikipedia.org/wiki/Hamming_distance) – Gathide