SRE : Prometheus des alertes qui se déclenchent pas tout le temps

brun-benjamin 11/09/2024
RÉSOLU

salut la team j'ai un truc chelou avec prometheus certaines alertes se déclenchent pas alors qu'elles devraient la métrique est bien là et dépasse le seuil mais l'alerte reste en pending ou ne s'active juste pas


# un exemple d'alerte qui pose problème
ALERT HighErrorRate
  IF sum(rate(http_requests_total{job="api"}[5m])) by (instance) > 100
  FOR 5m
  LABELS {severity="critical"}
  ANNOTATIONS {
    summary="High error rate on API instance {{ $labels.instance }}",
    description="Error rate on {{ $labels.instance }} has been above 100 req/s for 5 minutes."
  }
11/09/2024 à 12:09

6 commentaires

louis-alex
Membre
Avatar de louis-alex
louis-alex
Membre

hmm t'as checké les logs d'alertmanager et de prometheus pour voir s'il y a des erreurs de config ou d'envoi souvent c un problème de connectivité entre prometheus et alertmanager ou un souci de config du receiver

12/09/2024 à 08:45
lamy-nath
Membre Actif Secouriste
Avatar de lamy-nath
lamy-nath
Membre Actif Secouriste

et ton scrape interval il est comment ? si tes données arrivent pas assez vite ou sont trop espacées par rapport à ton FOR 5m ça peut fausser le truc prometheus a besoin de données continues pour évaluer les alertes correctement

13/09/2024 à 03:47

les logs sont propres le scrape interval est à 30s ce qui est ok pour un FOR 5m. c'est vraiment comme si l'expression promql était pas évaluée correctement tout le temps. des fois ça marche des fois non pour la même condition

14/09/2024 à 01:50
lenoir-guillaume
Membre Actif
Avatar de lenoir-guillaume
lenoir-guillaume
Membre Actif

t'as pas des soucis d'horloge entre tes serveurs prometheus et tes cibles ou entre prometheus et alertmanager un léger décalage d'heure peut faire des trucs bizarres avec les timestamps des métriques et l'évaluation des règles

15/09/2024 à 00:35
rblondel
Membre
Avatar de rblondel
rblondel
Membre

ça ressemble à un souci de staleness si tes séries disparaissent ou sont marquées comme stale avant que la période FOR ne soit terminée prometheus peut ne pas déclencher l'alerte même si le seuil a été atteint juste avant regarde la métrique prometheus_target_skipped_scrapes_total

15/09/2024 à 20:19

wow staleness c pas bête ! après vérification notre réseau est un peu instable et des cibles disparaissent/réapparaissent souvent. ça expliquerait les alertes fantômes. je vais revoir nos timeouts de scrape et voir pour des recording rules pour lisser les données. thx les gars

16/09/2024 à 20:12

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire