SRE : Prometheus alerte trop tard sur la latence du backend

Question

salut la compagnie ! j'ai un souci avec une alerte prometheus. je veux être prévenu dès qu'un endpoint de mon backend dépasse 500ms de latence moyenne sur 5 minutes. j'ai cette règle mais l'alerte se déclenche genre 10 minutes après que le problème ait commencé

- alert: HighBackendLatency
  expr: |
    avg_over_time(http_request_duration_seconds_bucket{job="my-backend", le="0.5"}[5m]) < 0.95
  for: 2m
  labels:
    severity: critical
  annotations:
    summary: "Latence élevée sur le backend"

mon scrape interval est de 15s. qqn a déjà eu ça ?

hoareau-emile · Answer

ton expr elle est un peu à l'envers là. le="0.5" c'est le nombre de requêtes qui ont pris moins de 500ms. si tu veux la latence moyenne tu devrais plutôt utiliser un histogram_quantile avec rate sur les buckets pour estimer le p99 ou p90

lesage-pauline · Answer

ouais carrément ! pour un p90 sur 5 minutes qui dépasse 500ms tu ferais un truc du genre :

histogram_quantile(0.90, sum by (le, job) (rate(http_request_duration_seconds_bucket{job="my-backend"}[5m]))) > 0.5

et for: 2m c ptete trop long pour la détection rapide, essaye avec 1m ou même 30s si c'est vraiment critique

jclement · Answer

attention aux données manquantes aussi. si ton backend crashe ou ne renvoie plus de métriques l'alerte ne se déclenchera jamais. tu peux ajouter un sum(up{job="my-backend"}) == 0 pour capter les arrêts nets

vdumont · Answer

ok je vois mon erreur dans l'expression. je vais adapter avec le histogram_quantile et un for plus court. j'avais pas pensé au up aussi. merci pour les tips ça devrait être beaucoup plus réactif comme ça

hoareau-emile · Answer

nickel. pense à valider ta règle dans prometheus ui avant de la pusher pour t'assurer que ça te sort les bonnes valeurs

SRE : Prometheus alerte trop tard sur la latence du backend

5 commentaires

Laisser une réponse

Les tableaux dans le langage de programmation Go

L'histoire du DevOps

Les variables CI/CD dans GitLab pour gérer vos secrets

Calcul Homomorphe : La Révolution Confidentielle du Cloud Native

Tuto : Pilotez votre Flotte IoT avec GitOps et ArgoCD

Rejoindre la communauté