Membre depuis le 08/05/2024
yo tout le monde ! j'ai un truc chelou sur prometheus. j'ai des alertes qui se déclenchent genre `highcpuusage` pour des services mais quand je vais sur grafana je vois que le cpu est super bas genre 5%. aucune métrique ne justifie l'alerte. je pige rien
# Règle d'alerte dans Prometheus (simplifié)
- alert: HighCpuUsage
expr: sum(rate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance) < 0.1
for: 5m
labels:
severity: critical
annotations:
summary: "CPU usage is high on {{ $labels.instance }}"
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
Commentaires
nath02
Membre depuis le 08/08/2024
slt. déjà quelle est la requête promql exacte de ton alerte ? et est-ce que tu as de l'autoscaling ou des services qui se shutdown/startup souvent ? des fois c'est des métriques de vieilles instances ou des instances en train de mourir qui polluent
brigitte-camus
Membre depuis le 08/05/2024
la requête est celle que j'ai mise là. et oui on a un autoscaling très dynamique sur nos clusters k8s. des instances se créent et se terminent h24. mais prom devrait clean les métriques des instances mortes non ?
nath02
Membre depuis le 08/08/2024
pas forcément direct. des fois l'exporter continue d'envoyer des métriques pendant que l'instance est en `terminating` ou prometheus garde une trace de l'historique pendant un certain temps (retention). si ta règle d'alerte ne filtre pas ces cas tu peux avoir des fausses alertes. essaie d'ajouter un filtre sur un label de l'instance qui indique son état de vie. genre si t'as un label `ec2_lifecycle_state` ou `pod_status`
brigitte-camus
Membre depuis le 08/05/2024
ok je vois le truc. j'ai vérifié et on a un label `ec2_lifecycle_state` qui peut être `terminated`. j'ai modifié l'alerte pour exclure ces instances. je teste ça
nath02
Membre depuis le 08/08/2024
parfait ça devrait résoudre ton souci. c'est un piège classique avec les infrastructures éphémères et les règles d'alerte qui ne sont pas assez robustes pour gérer les churn d'instances
brigitte-camus
Membre depuis le 08/05/2024
c'était bien ça ! les alertes ghost ont disparu. énorme merci pour le coup de main j'aurais jamais trouvé sans vous