Mi sono imbattuto in pandas e sembra ideale per calcoli semplici che mi piacerebbe fare. Ho uno sfondo SAS e pensavo che avrebbe sostituito proc freq - sembra che si ridimensionerà a quello che potrei voler fare in futuro. Tuttavia, non riesco a capire come funziona (non sono sicuro se dovrei guardare pivot/crosstab/indexing
- se dovrei avere un Panel
o DataFrames
ecc ...). Qualcuno mi potrebbe dare alcune indicazioni su come effettuare le seguenti operazioni:Simple cross-tabulation in panda
Ho due file CSV (uno per l'anno 2010, uno per l'anno 2011 - semplici dati transazionali) - Le colonne sono di categoria e la quantità
2010:
AB,100.00
AB,200.00
AC,150.00
AD,500.00
2011:
AB,500.00
AC,250.00
AX,900.00
Questi vengono caricati in oggetti dataframe separati.
Quello che mi piacerebbe fare è ottenere la categoria, la somma della categoria, e la frequenza della categoria, ad esempio:
2010:
AB,300.00,2
AC,150.00,1
AD,500.00,1
2011:
AB,500.00,1
AC,250.00,1
AX,900.00,1
Non riesco a capire se dovrei usare pivot/crosstab/groupby/an index
ecc ... Posso ottenere sia la somma che la frequenza - Non riesco a ottenere entrambi ... Diventa un po 'più complesso perché mi piacerebbe farlo di mese in mese, ma penso che se qualcuno fosse così gentile da indicarmi la giusta tecnica/direzione, potrò andare da lì.
Quindi stai dicendo che ogni file '.csv' è solo una singola riga, e quindi in quella singola riga il primo valore è l'anno seguito dai dati mentre lo presenti sopra? – benjaminmgross
Hi Factor3, è proprio il modo in cui S/O ha deciso di formattarlo (la prima volta l'ho usato, quindi dovrò cercarlo in futuro) ... Permettetemi di chiarire ... ci sono due file - 2010. csv e 2011.csv; questi contengono 'n' molte righe ognuna delle quali contiene due colonne. Stavo cercando di semplificare la domanda, ma concordo sul fatto che la formattazione sia in qualche modo fuorviante ora che l'ho letta di nuovo! –
Ho fornito diversi esempi dettagliati e approcci alternativi in questo [** D & R **] (https://stackoverflow.com/q/47152691/2336654) che voi o altri potrebbero trovare utili. – piRSquared