Sujet :
RÉSOLU
Liste des sujets Répondre Créer un sujet
Membre depuis le 11/10/2024
yo la team j'ai un souci avec mes alertes Prometheus sur Kubernetes. je monitore l'utilisation CPU et Memory de mes pods et j'ai plein de faux positifs. genre un pod qui a un petit pic de CPU pendant 30s et ça déclenche une alerte alors qu'il revient à la normale direct. ça génère trop de bruit
# exemple de règle d'alerte actuelle
- alert: HighCpuUsage
expr: sum(rate(container_cpu_usage_seconds_total{container!=""}[1m])) by (pod) > 0.8
for: 2m
labels:
severity: warning
annotations:
summary: "Pod {{ $labels.pod }} CPU usage is high"
vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
guichard-victor
Membre depuis le 11/06/2024
salut ! le
ratesur 1m c trop court pour les pics. essaie d'utiliseravg_over_timesur une période plus longue genre 5m ou 10m pour lisser les pics temporaires. et lefor: 2mc'est déjà pas mal mais si t'as des micro-bursts fréquents ça peut quand même t'embêternoemi38
Membre depuis le 15/10/2024
c'est ça l'idée. ou sinon tu peux même utiliser un
quantilepour détecter lesoutliersplutôt qu'un seuil fixe. si tu veux pas que les 99% des pics courts déclenchent l'alerte, tu peux faire un truc commequantile_over_time(0.95, rate(...)[5m:])et tu mets un seuil plus bas dessusmartins-margot
Membre depuis le 20/05/2024
et une autre option si tu veux anticiper les pics avant qu'ils deviennent un problème c'est d'utiliser
predict_linear. ça va essayer de prédire si tonCPUva dépasser un certain seuil dans le futur proche genre les 30 prochaines minutes. ça aide à passer en mode proactifufrancois
Membre depuis le 11/10/2024
ok j'ai revu la règle avec
avg_over_time(rate(...)[5m:])et ça a l'air bcp mieux. j'ai pu augmenter leforaussi sans avoir de faux positifs. moins de bruit c'est top. merci les gars pour les idées !