Prometheus alerte false positive sur la dispo de l'api gateway

Posté par virginie-joseph le 02/09/2025
RÉSOLU

virginie-joseph

Membre depuis le 01/09/2024

hello à tous. mon alerte prometheus sur la dispo de l'api gateway se déclenche souvent pour rien. genre l'api est up et fonctionnelle mais prometheus hurle qu'elle est down. je check les métriques et effectivement y'a des 5xx mais c'est pas représentatif de la vraie indispo. comment filtrer mieux ça ?

# ma query d'alerte actuelle
sum(rate(http_requests_total{job="api-gateway", status=~"5.."})) by (instance) > 5

Commentaires

breton-audrey

Membre depuis le 04/05/2024

c'est la joie des 5xx internes. au lieu de juste regarder le 5xx faudrait que tu compares avec le total des requêtes. genre si t'as 5 requêtes sur 1000 c'est pas grave mais 5 sur 10 c'est la cata. un truc avec un ratio serait plus pertinent

julien-luc

Membre depuis le 22/01/2025

ouais grave. ou bien tu peux mettre un `for: 5m` pour que l'alerte ne se déclenche que si la condition est vraie pendant 5 minutes. ça aide à ignorer les pics passagers ou les petits glitchs

virginie-joseph

Membre depuis le 01/09/2024

ah ok je vois. je vais tenter un `sum(rate(http_requests_total{job="api-gateway", status=~"5.."})) / sum(rate(http_requests_total{job="api-gateway"})) * 100 > 1` avec un `for: 2m`. ça devrait être plus robuste. thx pour l'idée du ratio

breton-audrey

Membre depuis le 04/05/2024

yes ça c une alerte qui a plus de gueule ! pense aussi à ignorer les statuts 503 si c du maintenance mode planifié par exemple

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire