Membre depuis le 11/06/2024
salut ! le rate sur 1m c trop court pour les pics. essaie d'utiliser avg_over_time sur une période plus longue genre 5m ou 10m pour lisser les pics temporaires. et le for: 2m c'est déjà pas mal mais si t'as des micro-bursts fréquents ça peut quand même t'embêter
# exemple de modification
expr: avg_over_time(rate(container_cpu_usage_seconds_total{container!=""}[1m])[5m:]) > 0.8
Membre depuis le 11/07/2021
c'est ça l'idée. ou sinon tu peux même utiliser un quantile pour détecter les outliers plutôt qu'un seuil fixe. si tu veux pas que les 99% des pics courts déclenchent l'alerte, tu peux faire un truc comme quantile_over_time(0.95, rate(...)[5m:]) et tu mets un seuil plus bas dessus
Membre depuis le 02/08/2019
et une autre option si tu veux anticiper les pics avant qu'ils deviennent un problème c'est d'utiliser predict_linear. ça va essayer de prédire si ton CPU va dépasser un certain seuil dans le futur proche genre les 30 prochaines minutes. ça aide à passer en mode proactif
# exemple
expr: predict_linear(container_cpu_usage_seconds_total{container!=""}[1h], 30 * 60) > 0.9
Membre depuis le 01/04/2019
ok j'ai revu la règle avec avg_over_time(rate(...)[5m:]) et ça a l'air bcp mieux. j'ai pu augmenter le for aussi sans avoir de faux positifs. moins de bruit c'est top. merci les gars pour les idées !
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
ufrancois
Membre depuis le 01/04/2019
yo la team j'ai un souci avec mes alertes
PrometheussurKubernetes. je monitore l'utilisationCPUetMemoryde mespodset j'ai plein de faux positifs. genre un pod qui a un petit pic deCPUpendant 30s et ça déclenche une alerte alors qu'il revient à la normale direct. ça génère trop de bruit