Mi dispiace davvero per quest'altra domanda di noob, ma non riesco a capire cosa sta succedendo qui. Voglio calcolare la frequenza delle parole da un file, dove le parole sono una per riga. Il file è davvero grande, quindi questo potrebbe essere il problema (conta 300k linee in questo esempio)Perché non funziona uniq su questo grande file? bash
faccio questo comando:
cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt
e il problema è che mi dà un piccolo bug: si mi considera le stesse parole come diverse. Per esempio le prime voci sono:
306 continua
278 apertura
211 eventi
189 murah
182 giochi
167 giochi
con giochi ripetuto due volte, come si può vedere
alla fine del file diventa ancora peggiore e sembra che questo:
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 winchester
1 wind
1 wind
per tutte le parole
Sono davvero dispiaciuto di nuovo per la domanda stupida, ma sono un po 'noob con la programmazione della shell. Cosa sto sbagliando?
grazie mille
uso inutile di cat. – scai