Ho uno script python che crea un elenco di elenchi di tempo di attività e dati del server, in cui ogni sotto-elenco (o 'riga') contiene le statistiche di un particolare cluster. Ad esempio, ben formattato sembra qualcosa di simile:Ricerca di valori anomali in un set di dati
------- ------------- ------------ ---------- -------------------
Cluster %Availability Requests/Sec Errors/Sec %Memory_Utilization
------- ------------- ------------ ---------- -------------------
ams-a 98.099 1012 678 91
bos-a 98.099 1111 12 91
bos-b 55.123 1513 576 22
lax-a 99.110 988 10 89
pdx-a 98.123 1121 11 90
ord-b 75.005 1301 123 100
sjc-a 99.020 1000 10 88
...(so on)...
Quindi, sotto forma di lista, che potrebbe essere simile:
[[ams-a,98.099,1012,678,91],[bos-a,98.099,1111,12,91],...]
La mia domanda: Qual è il modo migliore per determinare i valori anomali in ogni colonna? Oppure i valori anomali non sono necessariamente il modo migliore per attaccare il problema di trovare "cattiveria"? Nei dati sopra, vorrei assolutamente sapere di bos-b e ord-b, così come di ams-a poiché il tasso di errore è così alto, ma gli altri possono essere scartati. A seconda della colonna, poiché più in alto non è necessariamente peggio, né inferiore, sto cercando di capire il modo più efficiente per farlo. Sembra che Numpy sia menzionato molto per questo genere di cose, ma non so da che parte cominciare (purtroppo, sono più sysadmin che statistico ...).
Grazie in anticipo!
Perché non porre la domanda nel sito [stats.SE] (http://stats.stackexchange.com/)? – csgillespie
@csgillespie Buona idea, lo farò! – septagram
duplicato di http://stats.stackexchange.com/questions/6013/finding-outliers-in-a-data-set –