Prometheus alerts qui se déclenchent pas sur mes pods OOMKilled

Posté par josephine-cousin le 04/03/2026
RÉSOLU

josephine-cousin

Membre depuis le 12/10/2024

Salut ! j'ai un truc chelou en prod j'ai des pods qui se font OOMKilled régulièrement mais prometheus reste muet aucune alerte qui se déclenche j'ai pourtant une règle pour ça c'est frustrant

# règle d'alerte prometheus
- alert: HighOomKills
  expr: sum(rate(kube_pod_container_status_OOMKilled_total[5m])) by (namespace, pod) > 0
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: "Pod {{ $labels.pod }} dans {{ $labels.namespace }} a été OOMKilled"

Commentaires

catherine-pineau

Membre depuis le 28/12/2024

hello t'as vérifié que la métrique kube_pod_container_status_OOMKilled_total est bien scrapée et qu'elle a des valeurs quand un pod est OOMKilled tu peux check direct dans la UI de prometheus

breton-astrid

Membre depuis le 15/09/2024

et l'expression de ta règle elle est bien déclenchée dans grafana ou un alertmanager UI tu peux simuler pour voir si ça match

margaud02

Membre depuis le 26/02/2025

regarde le target status de tes kube-state-metrics elles sont up tes cibles sinon prometheus récupère rien

catherine-pineau

Membre depuis le 28/12/2024

des fois c'est juste le 'for: 5m' si le pod est OOMKilled et redémarre trop vite avant 5min l'alerte ne se déclenche pas essaie de le mettre à 'for: 1m' juste pour tester

breton-astrid

Membre depuis le 15/09/2024

t'as pas un label mismatch qui fait que ta règle ne voit pas la métrique jette un oeil aux labels générés par kube-state-metrics pour cette métrique

josephine-cousin

Membre depuis le 12/10/2024

bon c'était bien le `for: 5m` combiné au fait que les pods redémarrent trop vite après l'OOMKill en réduisant le `for` et en ajustant la `rate` ça passe. thx à tous pour les pistes

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire