Membre depuis le 12/10/2024
Salut ! j'ai un truc chelou en prod j'ai des pods qui se font OOMKilled régulièrement mais prometheus reste muet aucune alerte qui se déclenche j'ai pourtant une règle pour ça c'est frustrant
# règle d'alerte prometheus
- alert: HighOomKills
expr: sum(rate(kube_pod_container_status_OOMKilled_total[5m])) by (namespace, pod) > 0
for: 5m
labels:
severity: critical
annotations:
summary: "Pod {{ $labels.pod }} dans {{ $labels.namespace }} a été OOMKilled"
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
Commentaires
catherine-pineau
Membre depuis le 28/12/2024
hello t'as vérifié que la métrique kube_pod_container_status_OOMKilled_total est bien scrapée et qu'elle a des valeurs quand un pod est OOMKilled tu peux check direct dans la UI de prometheus
breton-astrid
Membre depuis le 15/09/2024
et l'expression de ta règle elle est bien déclenchée dans grafana ou un alertmanager UI tu peux simuler pour voir si ça match
margaud02
Membre depuis le 26/02/2025
regarde le target status de tes kube-state-metrics elles sont up tes cibles sinon prometheus récupère rien
catherine-pineau
Membre depuis le 28/12/2024
des fois c'est juste le 'for: 5m' si le pod est OOMKilled et redémarre trop vite avant 5min l'alerte ne se déclenche pas essaie de le mettre à 'for: 1m' juste pour tester
breton-astrid
Membre depuis le 15/09/2024
t'as pas un label mismatch qui fait que ta règle ne voit pas la métrique jette un oeil aux labels générés par kube-state-metrics pour cette métrique
josephine-cousin
Membre depuis le 12/10/2024
bon c'était bien le `for: 5m` combiné au fait que les pods redémarrent trop vite après l'OOMKill en réduisant le `for` et en ajustant la `rate` ça passe. thx à tous pour les pistes