6 commentaires
la requête est celle que j'ai mise là. et oui on a un autoscaling très dynamique sur nos clusters k8s. des instances se créent et se terminent h24. mais prom devrait clean les métriques des instances mortes non ?
pas forcément direct. des fois l'exporter continue d'envoyer des métriques pendant que l'instance est en terminating ou prometheus garde une trace de l'historique pendant un certain temps (retention). si ta règle d'alerte ne filtre pas ces cas tu peux avoir des fausses alertes. essaie d'ajouter un filtre sur un label de l'instance qui indique son état de vie. genre si t'as un label ec2_lifecycle_state ou pod_status
ok je vois le truc. j'ai vérifié et on a un label ec2_lifecycle_state qui peut être terminated. j'ai modifié l'alerte pour exclure ces instances. je teste ça
c'était bien ça ! les alertes ghost ont disparu. énorme merci pour le coup de main j'aurais jamais trouvé sans vous
Laisser une réponse
Vous devez être connecté pour poster un message !
yo tout le monde ! j'ai un truc chelou sur prometheus. j'ai des alertes qui se déclenchent genre
highcpuusagepour des services mais quand je vais sur grafana je vois que le cpu est super bas genre 5%. aucune métrique ne justifie l'alerte. je pige rien