2014-10-08 13 views
11

Ho una serie temporale A contenente diversi valori. Ho bisogno di ottenere una serie B che si definisce algebricamente come segue:Definizioni ricorsive in panda

B[t] = a * A[t] + b * B[t-1] 

dove possiamo supporre B[0] = 0 e a e b sono numeri reali.

Esiste un modo per eseguire questo tipo di calcolo ricorsivo in Panda? O non ho altra scelta che effettuare il loop in Python come suggerito in this answer?

Come esempio di ingresso:

> A = pd.Series(np.random.randn(10,)) 

0 -0.310354 
1 -0.739515 
2 -0.065390 
3 0.214966 
4 -0.605490 
5 1.293448 
6 -3.068725 
7 -0.208818 
8 0.930881 
9 1.669210 
+1

qui la questione aperta a cythonize esso: https://github.com/pydata/pandas/issues/4567, ma alcuni collegamenti sono loro così – Jeff

+2

è possibile utilizzare 'scipy.signal.lfilter'. Vedi http://stackoverflow.com/questions/21336794/python-recursive-vectorization-with-timeseries per un esempio. –

risposta

14

Come ho sottolineato in un commento, è possibile utilizzare scipy.signal.lfilter. In questo caso (supponendo A è una matrice NumPy unidimensionale), tutto ciò che serve è:

B = lfilter([a], [1.0, -b], A) 

Ecco uno script completo:

import numpy as np 
from scipy.signal import lfilter 


np.random.seed(123) 

A = np.random.randn(10) 
a = 2.0 
b = 3.0 

# Compute the recursion using lfilter. 
# [a] and [1, -b] are the coefficients of the numerator and 
# denominator, resp., of the filter's transfer function. 
B = lfilter([a], [1, -b], A) 

print B 

# Compare to a simple loop. 
B2 = np.empty(len(A)) 
for k in range(0, len(B2)): 
    if k == 0: 
     B2[k] = a*A[k] 
    else: 
     B2[k] = a*A[k] + b*B2[k-1] 

print B2 

print "max difference:", np.max(np.abs(B2 - B)) 

L'output dello script è:

[ -2.17126121e+00 -4.51909273e+00 -1.29913212e+01 -4.19865530e+01 
    -1.27116859e+02 -3.78047705e+02 -1.13899647e+03 -3.41784725e+03 
    -1.02510099e+04 -3.07547631e+04] 
[ -2.17126121e+00 -4.51909273e+00 -1.29913212e+01 -4.19865530e+01 
    -1.27116859e+02 -3.78047705e+02 -1.13899647e+03 -3.41784725e+03 
    -1.02510099e+04 -3.07547631e+04] 
max difference: 0.0 

altro esempio, in IPython, utilizzando un dataframe panda invece di un array numpy:

Se hai

In [12]: df = pd.DataFrame([1, 7, 9, 5], columns=['A']) 

In [13]: df 
Out[13]: 
    A 
0 1 
1 7 
2 9 
3 5 

e si desidera creare una nuova colonna, B, in modo tale che B[k] = A[k] + 2*B[k-1] (con B[k] == 0 per k < 0), è possibile scrivere

In [14]: df['B'] = lfilter([1], [1, -2], df['A'].astype(float)) 

In [15]: df 
Out[15]: 
    A B 
0 1 1 
1 7 9 
2 9 27 
3 5 59 
+0

Risposta fantastica. Grazie Warren. Ho preso lezioni in segnali e sistemi (il libro di Oppenheim), e questo mi sembra giusto. Osserverò attentamente questa risposta, poiché sembra che sia il modo giusto per risolvere il problema. Immagino che questo approccio possa gestire solo le ricorsioni lineari, giusto? – Josh

+1

Sì, solo lineare. (Il 'l' in' lfilter' sta per 'linear'.) –