Pandas raggruppa per e somma due colonne

Domanda per principianti. Sembra che dovrebbe essere un'operazione semplice, ma non riesco a capirlo dalla lettura dei documenti.Pandas raggruppa per e somma due colonne

Ho un df con questa struttura:

|integer_id|int_field_1|int_field_2|

La colonna integer_id non è unico, così mi piacerebbe gruppo df da integer_id e somma i due campi.

Lo SQL equivalente è:

SELECT integer_id, SUM(int_field_1), SUM(int_field_2) FROM tbl 
GROUP BY integer_id

Qualche suggerimento sul modo più semplice per fare questo?

EDIT:. Compreso input/output

Input: 
integer_id int_field_1 int_field_2 
2656  36   36 
2656  36   36 
9702  2   2 
9702  1   1

Ouput utilizzando df.groupby ('integer_id') sum():

integer_id int_field_1 int_field_2 
2656  72   72 
9702  3   3

fonte

2014-08-27 acpigeon

fa 'df.groupby ('integer_id'). Sum()' darti quello che vuoi? – EdChum

Ah sì, sembra che funzioni principalmente. La prima riga dell'output include 'integer_id' con due campi vuoti, cosa che non capisco. – acpigeon

Questa è probabilmente solo la rappresentazione del dataframe, dato che 'integer_id' è impostato come indice. Puoi fornire 'set_index = False' in' groupby' se non vuoi 'integer_id' come l'indice – joris

Hai solo bisogno di chiamare sum su un oggetto groupby:

df.groupby('integer_id').sum()

Vedere la docs per ulteriori esempi

fonte

2014-08-27 20:42:57 EdChum

cura di downvoter per spiegare? – EdChum

Si può fare

data.groupby(by=['account_ID'])['purchases'].sum()

fonte

2015-06-26 09:42:58

Pandas raggruppa per e somma due colonne

risposta

Problemi correlati