SRE : Prometheus : Problème de scrape_interval non respecté

celina-arnaud 11/04/2025
RÉSOLU
celina-arnaud
Auteur Actif
Avatar de celina-arnaud
celina-arnaud
Auteur Actif

team prometheus

j'ai un souci bizarre on a des métriques qui arrivent de nos targets mais de façon irrégulière le scrape_interval est à 15s dans la config globale et dans le job mais j'ai des gaps ou des retards parfois jusqu'à 30-45s entre les points. aucune erreur de scrape visible côté prometheus. c'est quoi le deal


global:
  scrape_interval: 15s
  evaluation_interval: 15s
scrape_configs:
  - job_name: 'my-app'
    static_configs:
      - targets: ['app-server-1:9090', 'app-server-2:9090']
11/04/2025 à 16:09

5 commentaires

legendre-bertrand
Membre Actif
Avatar de legendre-bertrand
legendre-bertrand
Membre Actif

hello t'as check si prometheus lui-même est sous charge ? des fois si y a trop de targets ou trop de métriques à processer il peut pas tenir le rythme. regarde les métriques internes de prometheus type prometheus_target_scrapes_missed_total

12/04/2025 à 16:01

ouais ou ptete un souci de réseau entre prometheus et tes targets. un peu de latence ou de perte de paquets peut provoquer des retards même sans échec de scrape franc. t'as des alerts sur la connectivité réseau

13/04/2025 à 10:25
fmarchal
Membre Actif Secouriste
Avatar de fmarchal
fmarchal
Membre Actif Secouriste

est-ce que tes targets sont configurées avec un timeout élevé ? si le target met trop de temps à répondre ça peut aussi décaler le scrape suivant. vérifie aussi que tes exporters sur les targets sont pas en galère de ressources

14/04/2025 à 07:31

j'ai déjà vu ça quand il y a des relabel_configs complexes ou des metric_relabel_configs qui prennent beaucoup de temps à s'exécuter surtout sur de gros volumes de métriques ça peut faire laguer le scrape loop

15/04/2025 à 06:04
celina-arnaud
Auteur Actif
Avatar de celina-arnaud
celina-arnaud
Auteur Actif

merci à tous

c'était bien la charge sur prometheus en fait. j'avais plein de petits jobs avec des relabel_configs un peu lourds et ça saturait le CPU du prometheus surtout quand y avait des pics. on va sharder les instances de prometheus. j'ai regardé prometheus_target_scrapes_missed_total et il était en feu

16/04/2025 à 00:45

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire