Impostare le righe della matrice scipy.sparse che soddisfano determinate condizioni agli zeri

Mi chiedo quale sia il modo migliore per sostituire le righe che non soddisfano una determinata condizione con zeri per matrici sparse. Per esempio (io uso matrici semplici illustrativo):Impostare le righe della matrice scipy.sparse che soddisfano determinate condizioni agli zeri

voglio sostituire ogni riga la cui somma è superiore a 10, con una fila di zeri

a = np.array([[0,0,0,1,1], 
       [1,2,0,0,0], 
       [6,7,4,1,0], # sum > 10 
       [0,1,1,0,1], 
       [7,3,2,2,8], # sum > 10 
       [0,1,0,1,2]])

voglio sostituire un [2] e [ 4] con gli zeri, quindi la mia uscita dovrebbe essere così:

array([[0, 0, 0, 1, 1], 
     [1, 2, 0, 0, 0], 
     [0, 0, 0, 0, 0], 
     [0, 1, 1, 0, 1], 
     [0, 0, 0, 0, 0], 
     [0, 1, 0, 1, 2]])

questo è abbastanza semplice per le matrici dense:

row_sum = a.sum(axis=1) 
to_keep = row_sum >= 10 
a[to_keep] = np.zeros(a.shape[1])

Tuttavia, quando provo:

s = sparse.csr_matrix(a) 
s[to_keep, :] = np.zeros(a.shape[1])

ottengo questo errore:

raise NotImplementedError("Fancy indexing in assignment not " 
NotImplementedError: Fancy indexing in assignment not supported for csr matrices.

Quindi, ho bisogno di una diversa soluzione per matrici sparse. Sono arrivato fino a questo:

def zero_out_unfit_rows(s_mat, limit_row_sum): 
    row_sum = s_mat.sum(axis=1).T.A[0] 
    to_keep = row_sum <= limit_row_sum 
    to_keep = to_keep.astype('int8') 
    temp_diag = get_sparse_diag_mat(to_keep) 
    return temp_diag * s_mat 

def get_sparse_diag_mat(my_diag): 
    N = len(my_diag) 
    my_diags = my_diag[np.newaxis, :] 
    return sparse.dia_matrix((my_diags, [0]), shape=(N,N))

Questo si basa sul fatto che, se abbiamo impostato gli elementi 2 ° e 4 ° della diagonale della matrice di identità a zero, poi righe della matrice pre-moltiplicato sono impostati a zero.

Tuttavia, ritengo che esista una soluzione migliore, più scipina. C'è una soluzione migliore?

fonte

2013-09-26 Akavall

Non sicuro se è molto scithonic, ma molte delle operazioni su matrici sparse sono fatte meglio accedendo direttamente al budello. Per il tuo caso, personalmente lo farei:

a = np.array([[0,0,0,1,1], 
       [1,2,0,0,0], 
       [6,7,4,1,0], # sum > 10 
       [0,1,1,0,1], 
       [7,3,2,2,8], # sum > 10 
       [0,1,0,1,2]]) 
sps_a = sps.csr_matrix(a) 

# get sum of each row: 
row_sum = np.add.reduceat(sps_a.data, sps_a.indptr[:-1]) 

# set values to zero 
row_mask = row_sum > 10 
nnz_per_row = np.diff(sps_a.indptr) 
sps_a.data[np.repeat(row_mask, nnz_per_row)] = 0 
# ask scipy.sparse to remove the zeroed entries 
sps_a.eliminate_zeros() 

>>> sps_a.toarray() 
array([[0, 0, 0, 1, 1], 
     [1, 2, 0, 0, 0], 
     [0, 0, 0, 0, 0], 
     [0, 1, 1, 0, 1], 
     [0, 0, 0, 0, 0], 
     [0, 1, 0, 1, 2]]) 
>>> sps_a.nnz # it does remove the entries, not simply set them to zero 
10

fonte

2013-09-26 18:51:09 Jaime

Impostare le righe della matrice scipy.sparse che soddisfano determinate condizioni agli zeri

risposta

Problemi correlati