2015-11-19 9 views
6

Utilizziamo Riemann e Riemann-health per monitorare i nostri server. Tuttavia ora ho un sacco di avvertenze critiche della CPU, perché la CPU ha raggiunto il picco per un tempo molto breve - Questo non è niente che ho bisogno di sapere su penso. Da quanto ho capito, un utilizzo costante e elevato della CPU aumenterà il carico medio, che verrà segnalato anche e sembra molto più utile.Segnala CPU come sempre ok con Riemann

Non voglio disabilitare la segnalazione della CPU, solo ogni livello dovrebbe essere considerato ok. Se possibile, mi piacerebbe cambiare gli eventi sul server Riemann, quindi non devo cambiare tutti i server.

Qui il nostro config Riemann: https://gist.github.com/iGEL/e352764a8c559440c851

+0

Potresti pubblicare anche il log di riemann? –

risposta

0

non ho una soluzione completa, ma in teoria si dovrebbe essere in grado di filtrare gli eventi correlati CPU tramite una funzione where e impostare lo stato incondizionatamente "OK" utilizzando with come segue:

(streams 
    (where (service #"cpu") 
     (with :state "ok" index))) 

D'altro canto, basandosi sulla media del carico non è una buona idea poiché una medio-alto carico può anche significare che a large number of processes are waiting for IO.

Invece di disattivare gli allarmi della CPU, è possibile avvertire solo se la CPU non è nello stato ok per più di unità di tempo X. Ancora meglio, avviso su una metrica di livello superiore che rappresenta un problema che incide sul client, come latenza di risposta, codici di stato HTTP, livelli di errore ecc. Dopo tutto, se la CPU è alta, ma non c'è alcun impatto sul sistema, un avviso probabilmente è solo rumore

Problemi correlati