hello t'as vérifié que la métrique kube_pod_container_status_OOMKilled_total est bien scrapée et qu'elle a des valeurs quand un pod est OOMKilled tu peux check direct dans la UI de prometheus
et l'expression de ta règle elle est bien déclenchée dans grafana ou un alertmanager UI tu peux simuler pour voir si ça match
regarde le target status de tes kube-state-metrics elles sont up tes cibles sinon prometheus récupère rien
des fois c'est juste le 'for: 5m' si le pod est OOMKilled et redémarre trop vite avant 5min l'alerte ne se déclenche pas essaie de le mettre à 'for: 1m' juste pour tester
t'as pas un label mismatch qui fait que ta règle ne voit pas la métrique jette un oeil aux labels générés par kube-state-metrics pour cette métrique
bon c'était bien le `for: 5m` combiné au fait que les pods redémarrent trop vite après l'OOMKill en réduisant le `for` et en ajustant la `rate` ça passe. thx à tous pour les pistes
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
josephine-cousin
Membre depuis le 12/10/2024actif
Salut ! j'ai un truc chelou en prod j'ai des pods qui se font OOMKilled régulièrement mais prometheus reste muet aucune alerte qui se déclenche j'ai pourtant une règle pour ça c'est frustrant