Voglio leggere in un csv molto grande (non può essere aperto in Excel e modificato facilmente) ma da qualche parte intorno alla 100.000 ° riga, c'è una riga con una colonna in più che causa il crash del programma. Questa riga è errata quindi ho bisogno di un modo per ignorare il fatto che si trattava di una colonna in più. Ci sono circa 50 colonne in modo da non codificare le intestazioni e usare nomi o usecol non è preferibile. Potrei anche incontrare questo problema in altri csv e voglio una soluzione generica. Sfortunatamente non ho trovato nulla in read_csv. Il codice è semplice come questo:Pandas dataframe read_csv su dati errati
def loadCSV(filePath):
dataframe = pd.read_csv(filePath, index_col=False, encoding='iso-8859-1', nrows=1000)
datakeys = dataframe.keys();
return dataframe, datakeys
Si desidera "error_bad_lines = False" per saltare dati errati – EdChum