7 commentaires
hello plutôt que d'augmenter for tu peux lisser le signal. genre au lieu de faire avg_over_time sur 5m tu peux faire un rate sur 1m puis un avg_over_time de ce rate sur 5m pour capter la tendance sans être trop sensible aux pics courts. ou alors un min_over_time sur 5m de ton cpu usage pour t'assurer que c un pic soutenu
ouais ou faire un count sur le nombre de fois où le cpu dépasse le seuil sur une période donnée et n'alerter que si ce count est > x. ça gère les micro-bursts
regarde aussi du côté des agrégations. si c avg_over_time(node_cpu_seconds_total{mode="idle"}[5m]) > 0.2 ça veut dire que 20% du temps est passé en idle ou moins. faut que tu sois précis sur ce que tu mesures. un sum ou avg par instance sur (1 - node_cpu_seconds_total{mode="idle"}[5m]) est plus direct pour l'utilisation
perso je suis fan des histogrammes pour ça. si tu as un histogramme du cpu usage tu peux alerter sur le p90 ou p95 sur 5m. ça filtre bien les outliers et les petits pics
ok je vais tester la combinaison rate puis avg_over_time avec un seuil un peu plus doux et p-être un count sur la fréquence des déclenchements pour vraiment filtrer. le p90/p95 est pas mal aussi je vais voir si j'ai les métriques suffisantes. merci pour les tips ça va m'aider à calmer le jeu
Laisser une réponse
Vous devez être connecté pour poster un message !
salut la team on a une alerte prometheus sur le cpu usage d'un service qui spamme à mort. l'alerte se déclenche pour 5min de cpu > 80% mais on a des pics qui durent 1-2 min et redescendent. du coup ça fait des pages tous les jours pour des trucs pas critiques. j'ai essayé de monter la durée à 10min mais c'est trop long on veut être notifié si ça dure