Prometheus alerts qui se déclenchent pas sur mes pods OOMKilled

josephine-cousin 04/03/2026
RÉSOLU
josephine-cousin
Auteur Actif
Avatar de josephine-cousin
josephine-cousin
Auteur Actif

Salut ! j'ai un truc chelou en prod j'ai des pods qui se font OOMKilled régulièrement mais prometheus reste muet aucune alerte qui se déclenche j'ai pourtant une règle pour ça c'est frustrant

# règle d'alerte prometheus
- alert: HighOomKills
  expr: sum(rate(kube_pod_container_status_OOMKilled_total[5m])) by (namespace, pod) > 0
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: "Pod {{ $labels.pod }} dans {{ $labels.namespace }} a été OOMKilled"
04/03/2026 à 23:20

6 commentaires

catherine-pineau
Membre Actif
Avatar de catherine-pineau
catherine-pineau
Membre Actif

hello t'as vérifié que la métrique kube_pod_container_status_OOMKilled_total est bien scrapée et qu'elle a des valeurs quand un pod est OOMKilled tu peux check direct dans la UI de prometheus

05/03/2026 à 22:27
breton-astrid
Membre Actif Secouriste
Avatar de breton-astrid
breton-astrid
Membre Actif Secouriste

et l'expression de ta règle elle est bien déclenchée dans grafana ou un alertmanager UI tu peux simuler pour voir si ça match

06/03/2026 à 17:27
margaud02
Membre Actif
Avatar de margaud02
margaud02
Membre Actif

regarde le target status de tes kube-state-metrics elles sont up tes cibles sinon prometheus récupère rien

07/03/2026 à 17:07
catherine-pineau
Membre Actif
Avatar de catherine-pineau
catherine-pineau
Membre Actif

des fois c'est juste le 'for: 5m' si le pod est OOMKilled et redémarre trop vite avant 5min l'alerte ne se déclenche pas essaie de le mettre à 'for: 1m' juste pour tester

08/03/2026 à 16:02
breton-astrid
Membre Actif Secouriste
Avatar de breton-astrid
breton-astrid
Membre Actif Secouriste

t'as pas un label mismatch qui fait que ta règle ne voit pas la métrique jette un oeil aux labels générés par kube-state-metrics pour cette métrique

09/03/2026 à 11:56
josephine-cousin
Auteur Actif
Avatar de josephine-cousin
josephine-cousin
Auteur Actif

bon c'était bien le for: 5m combiné au fait que les pods redémarrent trop vite après l'OOMKill en réduisant le for et en ajustant la rate ça passe. thx à tous pour les pistes

Modifié le 23/05/2026 à 16:20

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire