5 commentaires
si c'est par user_id c'est la cata effectivement. sum by (service_name) c'est pas mal mais est-ce que tu n'as pas des instances qui meurent et renaissent rapidement ? ça peut créer des gaps. essaie d'utiliser group_left ou group_right si tu dois joindre des métriques pour éviter les désalignements
perso quand j'ai du flapping avec de la cardinalité de ouf je vérifie toujours la rétention de prometheus et le nombre de series. si ça explose c que ton scraping est trop fin ou ta métrique est mal conçue pour l'alerte. tu peux tenter un sum by (service_name) mais avec un avg_over_time sur 15-30min pour vraiment lisser les pics temporaires
ok merci pour les tips les gars ! en fait c'était une combinaison de for trop court et surtout un label endpoint_path qui rendait la cardinalité folle même après le sum by service_name. j'ai refactorisé la métrique pour ne pas inclure ce label dans les alertes mais dans des dashboards spécifiques et j'ai mis un for: 5m sur l'alerte. ça a l'air de tenir maintenant.
Laisser une réponse
Vous devez être connecté pour poster un message !
salut tout le monde ! j'ai un souci avec prometheus. on a des alertes qui flappent à mort sur un service qui expose pas mal de métriques avec une très forte cardinalité (genre par user_id). l'alerte est simple, si
http_errors_total> X sur 5min. ça s'active, ça se désactive, ça devient insupportable. comment je stabilise ça sans juste augmenter les seuils ?