Domanda per principianti. Sembra che dovrebbe essere un'operazione semplice, ma non riesco a capirlo dalla lettura dei documenti.Pandas raggruppa per e somma due colonne
Ho un df con questa struttura:
|integer_id|int_field_1|int_field_2|
La colonna integer_id non è unico, così mi piacerebbe gruppo df da integer_id e somma i due campi.
Lo SQL equivalente è:
SELECT integer_id, SUM(int_field_1), SUM(int_field_2) FROM tbl
GROUP BY integer_id
Qualche suggerimento sul modo più semplice per fare questo?
EDIT:. Compreso input/output
Input:
integer_id int_field_1 int_field_2
2656 36 36
2656 36 36
9702 2 2
9702 1 1
Ouput utilizzando df.groupby ('integer_id') sum():
integer_id int_field_1 int_field_2
2656 72 72
9702 3 3
fa 'df.groupby ('integer_id'). Sum()' darti quello che vuoi? – EdChum
Ah sì, sembra che funzioni principalmente. La prima riga dell'output include 'integer_id' con due campi vuoti, cosa che non capisco. – acpigeon
Questa è probabilmente solo la rappresentazione del dataframe, dato che 'integer_id' è impostato come indice. Puoi fornire 'set_index = False' in' groupby' se non vuoi 'integer_id' come l'indice – joris