Ho il seguente frame di dati "DF", che è parte di un molto più grande:Il datagram aggregato per data e applica diverse funzioni alle colonne corrispondenti?
X1 X2 X3 X4 X5
4468 2010-03-24 3 1.000000e+00 1 2
7662 2010-03-24 9 3.000000e+00 2 1
1272 2010-03-25 8 2.000000e+00 1 1
1273 2010-03-26 9 0.000000e+00 1 1
1274 2010-03-27 8 0.000000e+00 1 1
4469 2010-03-28 4 0.000000e+00 1 2
7663 2010-03-28 4 3.000000e+00 3 1
8734 2010-03-28 7 4.000000e+00 2 3
1275 2010-03-29 8 0.000000e+00 1 1
Come si può vedere la prima colonna contiene una data. Quello che voglio fare è la seguente: voglio trasformare questo dataframe ad uno nuovo "DF2" dove c'è solo 1 riga per data con i valori delle colonne corrispondenti:
X2, the average
X3, the sum
X4, the maximum
di tutti i valori precedenti alla data. X5 non è rilevante e può essere rimosso. Questo sarebbe il risultato:
X1 X2 X3 X4
7662 2010-03-24 6 4.000000e+00 2
1272 2010-03-25 8 2.000000e+00 1
1273 2010-03-26 9 0.000000e+00 1
1274 2010-03-27 8 0.000000e+00 1
8734 2010-03-28 5 7.000000e+00 3
1275 2010-03-29 8 0.000000e+00 1
Qualcuno sa come eseguire questa operazione? L'aiuto sarebbe molto apprezzato!
'riepilogo 'è un'opzione alternativa alla funzione anonima. – joran
Penso che la parallelizzazione servirà solo se una delle funzioni è il collo della bottiglia di velocità, il che probabilmente non sarebbe il caso di 'mean',' sum' o 'max'. – Roland