Ho un file CSV come questo:Come rimuovere i duplicati in un file CSV basato su due colonne?
column1 column2
john kerry
adam stephenson
ashley hudson
john kerry
etc..
voglio rimuovere i duplicati da questo file, per ottenere solo:
column1 column2
john kerry
adam stephenson
ashley hudson
ho scritto questo script che rimuove i duplicati in base lastnames, ma io è necessario rimuovere i duplicati in base ai cognomi e al nome.
import csv
reader=csv.reader(open('myfilewithduplicates.csv', 'r'), delimiter=',')
writer=csv.writer(open('myfilewithoutduplicates.csv', 'w'), delimiter=',')
lastnames = set()
for row in reader:
if row[1] not in lastnames:
writer.writerow(row)
lastnames.add(row[1])
"Ho scritto questo script che rimuove i duplicati in base ai nomi, ma ho bisogno di rimuovere i duplicati in base al nome E al nome." Sono confuso qui. Quando dici il nome vuoi dire il nome, il cognome o una concatenazione? Il tuo script funziona solo sui cognomi. – Jeff
Ci scusiamo per non essere chiari, voglio rimuovere i duplicati in base a cognomi (colonna2) e nomi (colonna1) – Reveclair