4 commentaires
salut au lieu de avg(node_load1) utilise une fonction comme avg_over_time(node_load1[5m]) ça va lisser sur les 5 minutes et ignorer les petits pics. ou alors ajuste le seuil et la durée de ton alerte
ok je vois le truc avg_over_time est une bonne idée. je vais tester ça. je voulais pas non plus rater des vrais problèmes donc la moyenne sur le temps est ptete mieux. merci !
yep et si vraiment tu veux être précis sur les spikes mais sans fausses alertes tu peux jouer avec des requêtes plus complexes avec holt_winters ou predict_linear pour anticiper les tendances mais pour une charge cpu avg_over_time est souvent le bon compromis
niquel l'avg_over_time a fait le taf plus d'alertes intempestives. la charge est maintenant bien évaluée sur une durée plus longue. thx pour le coup de main !
Laisser une réponse
Vous devez être connecté pour poster un message !
yo la team j'ai des alertes sur grafana via prometheus qui se déclenchent sur la charge cpu moyenne de nos serveurs. le problème c que c des fausses positives genre ça alerte sur des pics d'une minute puis ça revient à la normale aussitôt. ma rule est sur
avg(node_load1) > 2 for 5m