Questa è la prima volta che provo Pandas. Penso di avere un caso d'uso ragionevole, ma sto inciampando. Voglio caricare un file delimitato da tabulazioni in un Dataframe di Pandas, quindi raggrupparlo per simbolo e tracciarlo con l'x.axis indicizzato dalla colonna TimeStamp. Ecco un sottoinsieme dei dati:Pandas DataFrame - l'indice desiderato ha valori duplicati
Symbol,Price,M1,M2,Volume,TimeStamp
TBET,2.19,3,8.05,1124179,9:59:14 AM
FUEL,3.949,9,1.15,109674,9:59:11 AM
SUNH,4.37,6,0.09,24394,9:59:09 AM
FUEL,3.9099,8,1.11,105265,9:59:09 AM
TBET,2.18,2,8.03,1121629,9:59:05 AM
ORBC,3.4,2,0.22,10509,9:59:02 AM
FUEL,3.8599,7,1.07,102116,9:58:47 AM
FUEL,3.8544,6,1.05,100116,9:58:40 AM
GBR,3.83,4,0.46,64251,9:58:24 AM
GBR,3.8,3,0.45,63211,9:58:20 AM
XRA,3.6167,3,0.12,42310,9:58:08 AM
GBR,3.75,2,0.34,47521,9:57:52 AM
MPET,1.42,3,0.26,44600,9:57:52 AM
Nota due cose sulla colonna TimeStamp;
- ha valori duplicati e
- gli intervalli sono irregolari.
ho pensato che avrei potuto fare qualcosa di simile ...
from pandas import *
import pylab as plt
df = read_csv('data.txt',index_col=5)
df.sort(ascending=False)
df.plot()
plt.show()
Ma il metodo read_csv solleva un'eccezione "colonne passaggi da 1-X come indice, ma ho trovato duplicati". C'è un'opzione che mi permetterà di specificare una colonna di indice con valori duplicati?
Sarei anche interessato ad allineare i miei intervalli di timestamp irregolari a una risoluzione di un secondo, vorrei comunque tracciare più eventi per un dato secondo, ma forse potrei introdurre un indice univoco, quindi allineare i miei prezzi ad esso?
Grazie. Mi unirò a pystatsmodels: se cercherete di imbattersi in noob con casi d'uso, potrei essere un territorio fertile. – kavu
Se per tempi non elaborati intendi solo numeri interi con forse una frequenza di campionamento, ecco un upvote. L'intero mondo delle registrazioni scientifiche è alla disperata ricerca di un'estensione di TimeSeries in quella direzione ... – meteore