2016-05-03 10 views
5

Ho eseguito l'accesso a questo errore durante il tentativo di analizzare le date con parse_dates dello pandas.read_csv(). Nel seguente frammento di codice, sto tentando di analizzare le date che hanno il formato dd/mm/yy, il che comporta una conversione errata. In alcuni casi, il campo data è considerato come mese e viceversa.pd.read_csv non analizza correttamente il campo data/mese quando set parse_date = ['nome colonna']

Per semplificare, in alcuni casi dd/mm/yy convertirsi in yyyy-dd-mm anziché yyyy-mm-dd.

Caso 1:

04/10/96 is parsed as 1996-04-10, which is wrong. 

Caso 2:

15/07/97 is parsed as 1997-07-15, which is correct. 

Caso 3:

10/12/97 is parsed as 1997-10-12, which is wrong. 

codice di esempio

import pandas as pd 

df = pd.read_csv('date_time.csv') 
print 'Data in csv:' 
print df 
print df['start_date'].dtypes 

print '----------------------------------------------' 

df = pd.read_csv('date_time.csv', parse_dates = ['start_date']) 
print 'Data after parsing:' 
print df 
print df['start_date'].dtypes 

Corrente di uscita

---------------------- 
Data in csv: 
---------------------- 
    start_date 
0 04/10/96 
1 15/07/97 
2 10/12/97 
3 06/03/99 
4  //1994 
5 /02/1967 
object 
---------------------- 
Data after parsing: 
---------------------- 
    start_date 
0 1996-04-10 
1 1997-07-15 
2 1997-10-12 
3 1999-06-03 
4 1994-01-01 
5 1967-02-01 
datetime64[ns] 

output previsto

---------------------- 
Data in csv: 
---------------------- 
    start_date 
0 04/10/96 
1 15/07/97 
2 10/12/97 
3 06/03/99 
4  //1994 
5 /02/1967 
object 
---------------------- 
Data after parsing: 
---------------------- 
    start_date 

0 1996-10-04 
1 1997-07-15 
2 1997-12-10 
3 1999-03-06 
4 1994-01-01 
5 1967-02-01 
datetime64[ns] 

Altri commenti:

potrei usare date_parser o pandas.to_datetime() per specificare il formato corretto per la data. Ma nel mio caso, ho pochi campi di date come ['//1997', '/02/1967'] per cui ho bisogno di convertire ['01/01/1997','01/02/1967']. Lo parse_dates mi aiuta a convertire quei tipi di campi data nel formato previsto senza che io debba scrivere righe di codice aggiuntive.

C'è qualche soluzione per questo?

Bug link @GitHub: https://github.com/pydata/pandas/issues/13063

+0

Forse si tenta l'aggiornamento alla versione più recente 0.18 di panda? Il problema è ancora lì? –

+0

Hai provato a impostare 'infer_datetime_format' su' True'? – IanS

+1

Ho lo stesso identico problema! La mia soluzione temporanea era quella di leggere i valori da un file Excel (anziché CSV), dove le date sono analizzate in base alle impostazioni locali del sistema, ma so che questa non è una soluzione adatta alla maggior parte degli sviluppatori. Ottieni date corrette quando il giorno> 12, poiché i panda si rendono conto che non può essere un valore mensile. – Shovalt

risposta

3

In panda versione 0.18.0 è possibile aggiungere dei parametri dayfirst=True e allora funziona:

import pandas as pd 
import io 

temp=u"""start_date 
04/10/96 
15/07/97 
10/12/97 
06/03/99 
//1994 
/02/1967 
""" 
#after testing replace io.StringIO(temp) to filename 
df = pd.read_csv(io.StringIO(temp), parse_dates = ['start_date'], dayfirst=True) 
    start_date 
0 1996-10-04 
1 1997-07-15 
2 1997-12-10 
3 1999-03-06 
4 1994-01-01 
5 1967-02-01 

Un'altra soluzione:

È possibile analisi con to_datetime con parametri diversi format e errors='coerce' e quindi combine_first:

date1 = pd.to_datetime(df['start_date'], format='%d/%m/%y', errors='coerce') 
print date1 
0 1996-10-04 
1 1997-07-15 
2 1997-12-10 
3 1999-03-06 
4   NaT 
5   NaT 
Name: start_date, dtype: datetime64[ns] 

date2 = pd.to_datetime(df['start_date'], format='/%m/%Y', errors='coerce') 
print date2 
0   NaT 
1   NaT 
2   NaT 
3   NaT 
4   NaT 
5 1967-02-01 
Name: start_date, dtype: datetime64[ns] 

date3 = pd.to_datetime(df['start_date'], format='//%Y', errors='coerce') 
print date3 
0   NaT 
1   NaT 
2   NaT 
3   NaT 
4 1994-01-01 
5   NaT 
Name: start_date, dtype: datetime64[ns] 
print date1.combine_first(date2).combine_first(date3) 
0 1996-10-04 
1 1997-07-15 
2 1997-12-10 
3 1999-03-06 
4 1994-01-01 
5 1967-02-01 
Name: start_date, dtype: datetime64[ns] 
+0

Grazie a @jezrael. Questo è figo. :) Apprezzo il tuo sforzo. Non ero a conoscenza di 'dayFirst = True'. Ma non capisco perché ci debba essere un altro parametro per ottenere il giusto formato di data. Non sarebbe meglio se 'parse_dates' potesse elaborarlo correttamente? –

+0

Domanda difficile, penso che 'ajcr' come sviluppatore di' panda 'possa spiegare meglio. Ma penso che riguardi le prestazioni. – jezrael

Problemi correlati