SRE : Prometheus : Problème de scrape_interval non respecté

Question

team prometheus
j'ai un souci bizarre on a des métriques qui arrivent de nos targets mais de façon irrégulière le scrape_interval est à 15s dans la config globale et dans le job mais j'ai des gaps ou des retards parfois jusqu'à 30-45s entre les points. aucune erreur de scrape visible côté prometheus. c'est quoi le deal

global:
  scrape_interval: 15s
  evaluation_interval: 15s
scrape_configs:
  - job_name: 'my-app'
    static_configs:
      - targets: ['app-server-1:9090', 'app-server-2:9090']

legendre-bertrand · Answer

hello t'as check si prometheus lui-même est sous charge ? des fois si y a trop de targets ou trop de métriques à processer il peut pas tenir le rythme. regarde les métriques internes de prometheus type prometheus_target_scrapes_missed_total

launay-frederique · Answer

ouais ou ptete un souci de réseau entre prometheus et tes targets. un peu de latence ou de perte de paquets peut provoquer des retards même sans échec de scrape franc. t'as des alerts sur la connectivité réseau

fmarchal · Answer

est-ce que tes targets sont configurées avec un timeout élevé ? si le target met trop de temps à répondre ça peut aussi décaler le scrape suivant. vérifie aussi que tes exporters sur les targets sont pas en galère de ressources

pierre-claude · Answer

j'ai déjà vu ça quand il y a des relabel_configs complexes ou des metric_relabel_configs qui prennent beaucoup de temps à s'exécuter surtout sur de gros volumes de métriques ça peut faire laguer le scrape loop

celina-arnaud · Answer

merci à tous
c'était bien la charge sur prometheus en fait. j'avais plein de petits jobs avec des relabel_configs un peu lourds et ça saturait le CPU du prometheus surtout quand y avait des pics. on va sharder les instances de prometheus. j'ai regardé prometheus_target_scrapes_missed_total et il était en feu

SRE : Prometheus : Problème de `scrape_interval` non respecté

5 commentaires

Laisser une réponse

Les pointeurs dans le langage de programmation Go

Création d'un playbook multi distributions

Les Expressions sur Terraform (boucles, conditions, arithmétique)

Quantum-Safe DevOps : Blindez Votre Infrastructure Face au Futur Quantique

L'Infrastructure IA-Native : Le Cœur Intelligent du Cloud & DevOps

Rejoindre la communauté