prometheus/grafana : alerte fausse positive sur cpu load

Question

yo la team j'ai des alertes sur grafana via prometheus qui se déclenchent sur la charge cpu moyenne de nos serveurs. le problème c que c des fausses positives genre ça alerte sur des pics d'une minute puis ça revient à la normale aussitôt. ma rule est sur avg(node_load1) > 2 for 5m

lebon-valerie · Answer

salut au lieu de avg(node_load1) utilise une fonction comme avg_over_time(node_load1[5m]) ça va lisser sur les 5 minutes et ignorer les petits pics. ou alors ajuste le seuil et la durée de ton alerte

henri-duval · Answer

ok je vois le truc avg_over_time est une bonne idée. je vais tester ça. je voulais pas non plus rater des vrais problèmes donc la moyenne sur le temps est ptete mieux. merci !

lebon-valerie · Answer

yep et si vraiment tu veux être précis sur les spikes mais sans fausses alertes tu peux jouer avec des requêtes plus complexes avec holt_winters ou predict_linear pour anticiper les tendances mais pour une charge cpu avg_over_time est souvent le bon compromis

henri-duval · Answer

niquel l'avg_over_time a fait le taf plus d'alertes intempestives. la charge est maintenant bien évaluée sur une durée plus longue. thx pour le coup de main !

prometheus/grafana : alerte fausse positive sur cpu load

4 commentaires

Laisser une réponse

Gérer et manipuler les ReplicaSets Kubernetes

Conclusion du cours Kubernetes

Création de notre playbook Ansible (stack LAMP)

Faciliter le déploiements k8s avec Kustomize

Le DevOps Déclaratif Unifié : Maîtrise Totale du Système par le Code

Rejoindre la communauté