SRE : Alertes Prometheus qui spam sur les spikes CPU

qrobert 24/11/2025
RÉSOLU
qrobert
Auteur
Avatar de qrobert
qrobert
Auteur

hello j'ai un souci avec prometheus mes alertes cpu sur certains services spamment trop. dès qu'un pod redémarre ou qu'il y a un petit spike l'alerte part. je veux des alertes pour les vrais problèmes pas pour les trucs éphémères

# exemple d'alerte qui spamme
- alert: HighCpuUsage
  expr: sum(rate(container_cpu_usage_seconds_total{container="my-app"}[5m])) by (pod) > 0.8
  for: 2m
  labels:
    severity: warning
  annotations:
    summary: "CPU usage for pod {{ $labels.pod }} is high"
24/11/2025 à 06:09

5 commentaires

emmanuelle-humbert
Membre Actif
Avatar de emmanuelle-humbert
emmanuelle-humbert
Membre Actif

pour les spikes tu peux essayer d'utiliser irate au lieu de rate si tu veux capter les changements plus rapides mais t'as le même problème de sensibilité. le mieux c'est d'ajouter un group by sur la moyenne des pods si c'est un service qui a plusieurs réplicas

25/11/2025 à 00:24

ouais ou alors augmente le for genre 5m ou 10m ça filtre les trucs courts. et si c'est un truc genre batch ou redémarrage planifié utilise alertmanager silences pour la période. et pour le CPU 80% ça me parait haut pour une alerte warning surtout si tu peux scaler

26/11/2025 à 00:00
henri-aubert
Membre Actif Secouriste
Avatar de henri-aubert
henri-aubert
Membre Actif Secouriste

tu peux aussi utiliser des recording rules pour lisser tes métriques et alerter sur ces métriques agrégées. ça évite d'avoir des expr complexes dans tes alertes et ça pré-calcule des trucs utiles

26/11/2025 à 19:17
christelle39
Membre Actif Secouriste
Avatar de christelle39
christelle39
Membre Actif Secouriste

pense à l'approche SLI/SLO tu peux définir des alertes basées sur des objectifs de performance plutôt que des seuils arbitraires sur l'utilisation du CPU. c'est plus orienté impact utilisateur que ressource

27/11/2025 à 15:28
qrobert
Auteur
Avatar de qrobert
qrobert
Auteur

ok merci pour tous les tips je vais tester d'augmenter le for à 5m et surtout regarder les recording rules et les silences. la suggestion de passer sur du SLI/SLO est intéressante pour plus tard. je vous tiens au jus

28/11/2025 à 10:26

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire