Desidero poter prendere il mio attuale insieme di dati, che è pieno di inte, e classificarli secondo determinati criteri. La tabella ha un aspetto simile al seguente:classificare una serie in una nuova colonna in panda
[in]> df = pd.DataFrame({'A':[0,2,3,2,0,0],'B': [1,0,2,0,0,0],'C': [0,0,1,0,1,0]})
[out]>
A B C
0 0 1 0
1 2 0 0
2 3 2 1
3 2 0 0
4 0 0 1
5 0 0 0
Mi piacerebbe classificarli in una colonna separata per stringa. Essendo più familiare con R, ho provato a creare una nuova colonna con le regole nella definizione di quella colonna. Di seguito ho tentato con .ix e lambdas che hanno entrambi causato errori di tipo (tra gli interi & series). Ho l'impressione che questa sia una domanda abbastanza semplice. Anche se la seguente è completamente sbagliato, qui è la logica dal tentativo 1:
df['D']=(
if ((df['A'] > 0) & (df['B'] == 0) & df['C']==0):
return "c1";
elif ((df['A'] == 0) & ((df['B'] > 0) | df['C'] >0)):
return "c2";
else:
return "c3";)
per un risultato finale di:
A B C D
0 0 1 0 "c2"
1 2 0 0 "c1"
2 3 2 1 "c3"
3 2 0 0 "c1"
4 0 0 1 "c2"
5 0 0 0 "c3"
Se qualcuno potesse aiutarmi a capirlo sarebbe molto apprezzato.
Io voto per il metodo 2 solo per la leggibilità. –