5 commentaires
hello t'as check si prometheus lui-même est sous charge ? des fois si y a trop de targets ou trop de métriques à processer il peut pas tenir le rythme. regarde les métriques internes de prometheus type prometheus_target_scrapes_missed_total
ouais ou ptete un souci de réseau entre prometheus et tes targets. un peu de latence ou de perte de paquets peut provoquer des retards même sans échec de scrape franc. t'as des alerts sur la connectivité réseau
j'ai déjà vu ça quand il y a des relabel_configs complexes ou des metric_relabel_configs qui prennent beaucoup de temps à s'exécuter surtout sur de gros volumes de métriques ça peut faire laguer le scrape loop
merci à tous
c'était bien la charge sur prometheus en fait. j'avais plein de petits jobs avec des relabel_configs un peu lourds et ça saturait le CPU du prometheus surtout quand y avait des pics. on va sharder les instances de prometheus. j'ai regardé prometheus_target_scrapes_missed_total et il était en feu
Laisser une réponse
Vous devez être connecté pour poster un message !
team prometheus
j'ai un souci bizarre on a des métriques qui arrivent de nos targets mais de façon irrégulière le
scrape_intervalest à 15s dans laconfigglobale et dans lejobmais j'ai des gaps ou des retards parfois jusqu'à 30-45s entre les points. aucune erreur de scrape visible côté prometheus. c'est quoi le deal