alertes prometheus ghost sans métrique correspondante

Posté par brigitte-camus le 23/01/2025
RÉSOLU

brigitte-camus

Membre depuis le 08/05/2024

yo tout le monde ! j'ai un truc chelou sur prometheus. j'ai des alertes qui se déclenchent genre `highcpuusage` pour des services mais quand je vais sur grafana je vois que le cpu est super bas genre 5%. aucune métrique ne justifie l'alerte. je pige rien


# Règle d'alerte dans Prometheus (simplifié)
- alert: HighCpuUsage
  expr: sum(rate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance) < 0.1
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: "CPU usage is high on {{ $labels.instance }}"

Commentaires

nath02

Membre depuis le 08/08/2024

slt. déjà quelle est la requête promql exacte de ton alerte ? et est-ce que tu as de l'autoscaling ou des services qui se shutdown/startup souvent ? des fois c'est des métriques de vieilles instances ou des instances en train de mourir qui polluent

brigitte-camus

Membre depuis le 08/05/2024

la requête est celle que j'ai mise là. et oui on a un autoscaling très dynamique sur nos clusters k8s. des instances se créent et se terminent h24. mais prom devrait clean les métriques des instances mortes non ?

nath02

Membre depuis le 08/08/2024

pas forcément direct. des fois l'exporter continue d'envoyer des métriques pendant que l'instance est en `terminating` ou prometheus garde une trace de l'historique pendant un certain temps (retention). si ta règle d'alerte ne filtre pas ces cas tu peux avoir des fausses alertes. essaie d'ajouter un filtre sur un label de l'instance qui indique son état de vie. genre si t'as un label `ec2_lifecycle_state` ou `pod_status`

brigitte-camus

Membre depuis le 08/05/2024

ok je vois le truc. j'ai vérifié et on a un label `ec2_lifecycle_state` qui peut être `terminated`. j'ai modifié l'alerte pour exclure ces instances. je teste ça

nath02

Membre depuis le 08/08/2024

parfait ça devrait résoudre ton souci. c'est un piège classique avec les infrastructures éphémères et les règles d'alerte qui ne sont pas assez robustes pour gérer les churn d'instances

brigitte-camus

Membre depuis le 08/05/2024

c'était bien ça ! les alertes ghost ont disparu. énorme merci pour le coup de main j'aurais jamais trouvé sans vous

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire