alertes prometheus ghost sans métrique correspondante

brigitte-camus 23/01/2025
RÉSOLU
brigitte-camus
Auteur Actif
Avatar de brigitte-camus
brigitte-camus
Auteur Actif

yo tout le monde ! j'ai un truc chelou sur prometheus. j'ai des alertes qui se déclenchent genre highcpuusage pour des services mais quand je vais sur grafana je vois que le cpu est super bas genre 5%. aucune métrique ne justifie l'alerte. je pige rien


# Règle d'alerte dans Prometheus (simplifié)
- alert: HighCpuUsage
  expr: sum(rate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance) < 0.1
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: "CPU usage is high on {{ $labels.instance }}"
23/01/2025 à 03:11

6 commentaires

nath02
Membre Actif
Avatar de nath02
nath02
Membre Actif

slt. déjà quelle est la requête promql exacte de ton alerte ? et est-ce que tu as de l'autoscaling ou des services qui se shutdown/startup souvent ? des fois c'est des métriques de vieilles instances ou des instances en train de mourir qui polluent

24/01/2025 à 00:16
brigitte-camus
Auteur Actif
Avatar de brigitte-camus
brigitte-camus
Auteur Actif

la requête est celle que j'ai mise là. et oui on a un autoscaling très dynamique sur nos clusters k8s. des instances se créent et se terminent h24. mais prom devrait clean les métriques des instances mortes non ?

24/01/2025 à 19:52
nath02
Membre Actif
Avatar de nath02
nath02
Membre Actif

pas forcément direct. des fois l'exporter continue d'envoyer des métriques pendant que l'instance est en terminating ou prometheus garde une trace de l'historique pendant un certain temps (retention). si ta règle d'alerte ne filtre pas ces cas tu peux avoir des fausses alertes. essaie d'ajouter un filtre sur un label de l'instance qui indique son état de vie. genre si t'as un label ec2_lifecycle_state ou pod_status

Modifié le 23/05/2026 à 16:20
brigitte-camus
Auteur Actif
Avatar de brigitte-camus
brigitte-camus
Auteur Actif

ok je vois le truc. j'ai vérifié et on a un label ec2_lifecycle_state qui peut être terminated. j'ai modifié l'alerte pour exclure ces instances. je teste ça

Modifié le 23/05/2026 à 16:20
nath02
Membre Actif
Avatar de nath02
nath02
Membre Actif

parfait ça devrait résoudre ton souci. c'est un piège classique avec les infrastructures éphémères et les règles d'alerte qui ne sont pas assez robustes pour gérer les churn d'instances

27/01/2025 à 10:31
brigitte-camus
Auteur Actif
Avatar de brigitte-camus
brigitte-camus
Auteur Actif

c'était bien ça ! les alertes ghost ont disparu. énorme merci pour le coup de main j'aurais jamais trouvé sans vous

28/01/2025 à 07:34

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire