Come trovare la differenza di set di due file?

Ho due file A e B. Voglio trovare tutte le linee in A che non sono in B. Qual è il modo più veloce per farlo in bash/usando le utility standard di Linux? Ecco cosa ho provato finora:Come trovare la differenza di set di due file?

for line in `cat file1` 
do 
    if [ `grep -c "^$line$" file2` -eq 0]; then 
    echo $line 
    fi 
done

Funziona, ma è lento. C'è un modo più veloce per farlo?

fonte

2012-05-07 spinlok

Puoi mostrare qualche codice o spiegare cosa hai provato? La tua domanda così com'è sembra che tu voglia che noi facciamo tutto il lavoro per te. Spesso, mostrare il codice aiuterà a incoraggiare più risposte e risultati migliori. – jmort253

Dovresti anche definire cosa ti aspetti da "più veloce". Riguarda il tempo di elaborazione o il tempo impiegato a scrivere il codice. Per il secondo, vorrei andare per qualcosa come 'diff A B | grep '^ -' ' – tonio

@ jmort253, grazie, ho modificato la domanda per aggiungere ulteriori dettagli – spinlok

The BashFAQ describes doing exactly this with comm, che è il metodo canonicamente corretta.

# Subtraction of file1 from file2 
# (i.e., only the lines unique to file2) 
comm -13 <(sort file1) <(sort file2)

diff è meno appropriato per questa attività, poiché tenta di operare su blocchi anziché su singole righe; in quanto tale, gli algoritmi che deve utilizzare sono più complessi e meno efficienti in termini di memoria.

comm è stato part of the Single Unix Specification da SUS2 (1997).

fonte

2012-05-07 21:43:37

Questo è esattamente quello che stavo cercando! Grazie! – spinlok

Questo è un programma a portata di mano. Non l'ho visto prima. Mi chiedo quali altre piccole gemme di applicazioni shell abbiano mancato la mia vita passata come amministratore delegato. –

Il programma "diff" è un programma standard unix che esamina le differenze tra i file.

% cat A 
a 
b 
c 
d 
% cat B 
a 
b 
e 
% diff A B 
3,4c3 
< c 
< d 
--- 
> e

Con un semplice grep e tagliare si possono selezionare le linee in A, non in B. Si noti che il taglio è piuttosto semplicistica e spazi nelle linee getterebbe via ... ma il concetto è lì.

% diff A B | grep '^<' | cut -f2 -d" " 
c 
d

fonte

2012-05-07 21:42:42

Se si desidera semplicemente le linee che sono file di A, ma non in B, è possibile ordinare i file, e confrontarli con diff.

sort A > A.sorted 
sort B > B.sorted 
diff -u A.sorted B.sorted | grep '^-'

fonte

2012-05-07 21:43:34 tonio

Non hai bisogno di file temporanei per quello. 'diff <(ordina A) <(ordina B) | grep '^ -' ' – jordanm

Sì, è ancora più chiaro in questo modo, grazie – tonio

Come trovare la differenza di set di due file?

risposta

Problemi correlati