Mi chiedo quale sia il modo migliore per sostituire le righe che non soddisfano una determinata condizione con zeri per matrici sparse. Per esempio (io uso matrici semplici illustrativo):Impostare le righe della matrice scipy.sparse che soddisfano determinate condizioni agli zeri
voglio sostituire ogni riga la cui somma è superiore a 10, con una fila di zeri
a = np.array([[0,0,0,1,1],
[1,2,0,0,0],
[6,7,4,1,0], # sum > 10
[0,1,1,0,1],
[7,3,2,2,8], # sum > 10
[0,1,0,1,2]])
voglio sostituire un [2] e [ 4] con gli zeri, quindi la mia uscita dovrebbe essere così:
array([[0, 0, 0, 1, 1],
[1, 2, 0, 0, 0],
[0, 0, 0, 0, 0],
[0, 1, 1, 0, 1],
[0, 0, 0, 0, 0],
[0, 1, 0, 1, 2]])
questo è abbastanza semplice per le matrici dense:
row_sum = a.sum(axis=1)
to_keep = row_sum >= 10
a[to_keep] = np.zeros(a.shape[1])
Tuttavia, quando provo:
s = sparse.csr_matrix(a)
s[to_keep, :] = np.zeros(a.shape[1])
ottengo questo errore:
raise NotImplementedError("Fancy indexing in assignment not "
NotImplementedError: Fancy indexing in assignment not supported for csr matrices.
Quindi, ho bisogno di una diversa soluzione per matrici sparse. Sono arrivato fino a questo:
def zero_out_unfit_rows(s_mat, limit_row_sum):
row_sum = s_mat.sum(axis=1).T.A[0]
to_keep = row_sum <= limit_row_sum
to_keep = to_keep.astype('int8')
temp_diag = get_sparse_diag_mat(to_keep)
return temp_diag * s_mat
def get_sparse_diag_mat(my_diag):
N = len(my_diag)
my_diags = my_diag[np.newaxis, :]
return sparse.dia_matrix((my_diags, [0]), shape=(N,N))
Questo si basa sul fatto che, se abbiamo impostato gli elementi 2 ° e 4 ° della diagonale della matrice di identità a zero, poi righe della matrice pre-moltiplicato sono impostati a zero.
Tuttavia, ritengo che esista una soluzione migliore, più scipina. C'è una soluzione migliore?