6 commentaires
hello t'as vérifié que la métrique kube_pod_container_status_OOMKilled_total est bien scrapée et qu'elle a des valeurs quand un pod est OOMKilled tu peux check direct dans la UI de prometheus
et l'expression de ta règle elle est bien déclenchée dans grafana ou un alertmanager UI tu peux simuler pour voir si ça match
des fois c'est juste le 'for: 5m' si le pod est OOMKilled et redémarre trop vite avant 5min l'alerte ne se déclenche pas essaie de le mettre à 'for: 1m' juste pour tester
t'as pas un label mismatch qui fait que ta règle ne voit pas la métrique jette un oeil aux labels générés par kube-state-metrics pour cette métrique
bon c'était bien le for: 5m combiné au fait que les pods redémarrent trop vite après l'OOMKill en réduisant le for et en ajustant la rate ça passe. thx à tous pour les pistes
Laisser une réponse
Vous devez être connecté pour poster un message !
Salut ! j'ai un truc chelou en prod j'ai des pods qui se font OOMKilled régulièrement mais prometheus reste muet aucune alerte qui se déclenche j'ai pourtant une règle pour ça c'est frustrant