Ho eseguito l'accesso a questo errore durante il tentativo di analizzare le date con parse_dates dello pandas.read_csv()
. Nel seguente frammento di codice, sto tentando di analizzare le date che hanno il formato dd/mm/yy
, il che comporta una conversione errata. In alcuni casi, il campo data è considerato come mese e viceversa.pd.read_csv non analizza correttamente il campo data/mese quando set parse_date = ['nome colonna']
Per semplificare, in alcuni casi dd/mm/yy
convertirsi in yyyy-dd-mm
anziché yyyy-mm-dd
.
Caso 1:
04/10/96 is parsed as 1996-04-10, which is wrong.
Caso 2:
15/07/97 is parsed as 1997-07-15, which is correct.
Caso 3:
10/12/97 is parsed as 1997-10-12, which is wrong.
codice di esempio
import pandas as pd
df = pd.read_csv('date_time.csv')
print 'Data in csv:'
print df
print df['start_date'].dtypes
print '----------------------------------------------'
df = pd.read_csv('date_time.csv', parse_dates = ['start_date'])
print 'Data after parsing:'
print df
print df['start_date'].dtypes
Corrente di uscita
----------------------
Data in csv:
----------------------
start_date
0 04/10/96
1 15/07/97
2 10/12/97
3 06/03/99
4 //1994
5 /02/1967
object
----------------------
Data after parsing:
----------------------
start_date
0 1996-04-10
1 1997-07-15
2 1997-10-12
3 1999-06-03
4 1994-01-01
5 1967-02-01
datetime64[ns]
output previsto
----------------------
Data in csv:
----------------------
start_date
0 04/10/96
1 15/07/97
2 10/12/97
3 06/03/99
4 //1994
5 /02/1967
object
----------------------
Data after parsing:
----------------------
start_date
0 1996-10-04
1 1997-07-15
2 1997-12-10
3 1999-03-06
4 1994-01-01
5 1967-02-01
datetime64[ns]
Altri commenti:
potrei usare date_parser
o pandas.to_datetime()
per specificare il formato corretto per la data. Ma nel mio caso, ho pochi campi di date come ['//1997', '/02/1967']
per cui ho bisogno di convertire ['01/01/1997','01/02/1967']
. Lo parse_dates
mi aiuta a convertire quei tipi di campi data nel formato previsto senza che io debba scrivere righe di codice aggiuntive.
C'è qualche soluzione per questo?
Bug link @GitHub: https://github.com/pydata/pandas/issues/13063
Forse si tenta l'aggiornamento alla versione più recente 0.18 di panda? Il problema è ancora lì? –
Hai provato a impostare 'infer_datetime_format' su' True'? – IanS
Ho lo stesso identico problema! La mia soluzione temporanea era quella di leggere i valori da un file Excel (anziché CSV), dove le date sono analizzate in base alle impostazioni locali del sistema, ma so che questa non è una soluzione adatta alla maggior parte degli sviluppatori. Ottieni date corrette quando il giorno> 12, poiché i panda si rendono conto che non può essere un valore mensile. – Shovalt