Se Cholesky-decomporre una matrice di covarianza C
in L L^T
, e generare un indipendente vettore casuale x
, quindi Lx
sarà un vettore casuale con covarianza C
.
import numpy as np
import matplotlib.pyplot as plt
linalg = np.linalg
np.random.seed(1)
num_samples = 1000
num_variables = 2
cov = [[0.3, 0.2], [0.2, 0.2]]
L = linalg.cholesky(cov)
# print(L.shape)
# (2, 2)
uncorrelated = np.random.standard_normal((num_variables, num_samples))
mean = [1, 1]
correlated = np.dot(L, uncorrelated) + np.array(mean).reshape(2, 1)
# print(correlated.shape)
# (2, 1000)
plt.scatter(correlated[0, :], correlated[1, :], c='green')
plt.show()
riferimento: Vedere Cholesky decomposition
Se si desidera generare due serie, X
e Y
, con una particolare (Pearson) correlation coefficient (ad esempio 0,2):
rho = cov(X,Y)/sqrt(var(X)*var(Y))
si potrebbe scegliere la matrice di covarianza di essere
cov = [[1, 0.2],
[0.2, 1]]
Questo rende la cov(X,Y) = 0.2
, e le varianze, var(X)
e var(Y)
sia uguale a 1. Quindi rho
sarebbe uguale 0,2.
Ad esempio, di seguito vengono generate coppie di serie correlate, X
e Y
, 1000 volte. Poi abbiamo tracciare un istogramma dei coefficienti di correlazione:
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats
linalg = np.linalg
np.random.seed(1)
num_samples = 1000
num_variables = 2
cov = [[1.0, 0.2], [0.2, 1.0]]
L = linalg.cholesky(cov)
rhos = []
for i in range(1000):
uncorrelated = np.random.standard_normal((num_variables, num_samples))
correlated = np.dot(L, uncorrelated)
X, Y = correlated
rho, pval = stats.pearsonr(X, Y)
rhos.append(rho)
plt.hist(rhos)
plt.show()
Come si può vedere, i coefficienti di correlazione sono generalmente vicino 0.2, ma per qualsiasi dato campione, la correlazione molto probabilmente non essere 0,2 esattamente .
Mi dispiace, mio male, su Python 3.3. – PascalVKooten
Whaaat ... Il supporto è stato aggiunto davvero di recente! Grazie per avermi ricordato. – PascalVKooten
@Dualinity, con un tono meno umoristico, oltre alla grande raccolta di pacchetti di Blender, ti suggerisco di provare Python (X, Y). È una raccolta di pacchetti Python per lo sviluppo scientifico + IPython + Grande IDE chiamato spyder. http://code.google.com/p/pythonxy/ – Oz123