Una delle cose che mi occupo di più nella pulizia dei dati sono i valori mancanti. R si occupa di questo bene usando la sua etichetta di dati mancanti "NA". In Python, sembra che dovrò occuparmi di array mascherati che sembrano essere un grave problema da impostare e non sembrano essere ben documentati. Qualche suggerimento su come semplificare questo processo in Python? Questo sta diventando un affare per entrare in Python per l'analisi dei dati. GrazieCome gestisci i dati mancanti usando numpy/scipy?
Aggiornamento È ovviamente passato un po 'di tempo da quando ho esaminato i metodi nel modulo numpy.ma. Sembra che almeno le funzioni di analisi di base siano disponibili per gli array mascherati, e gli esempi forniti mi hanno aiutato a capire come creare array mascherati (grazie agli autori). Mi piacerebbe vedere se alcuni dei più recenti metodi statistici in Python (in fase di sviluppo in GSoC di quest'anno) incorporano questo aspetto, e almeno fa l'analisi del caso completo.
Perché non utilizzare numpy.NaN per identificare i dati mancanti? – Paul