prometheus alerte cpu high memory low pas de déclenchement

Question

salut tout le monde ! j'ai un problème avec prometheus. j'ai une alerte pour cpu usage high > 90% sur 5min et une autre pour memory free low < 10% sur 5min. les métriques montrent bien que ça dépasse les seuils mais l'alerte prometheus ne se déclenche jamais. les targets sont up l'exporteur envoie bien les données. j'ai raté un truc ? # rule.yml (simplifié) groups: - name: my-app-alerts rules: - alert: HighCpuUsage expr: 100 - (avg by (instance) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 90 for: 5m labels: severity: critical annotations: summary: "CPU usage high on {{ $labels.instance }}" - alert: LowMemoryFree expr: node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100 < 10 for: 5m labels: severity: warning annotations: summary: "Low memory on {{ $labels.instance }}"

mace-jeannine · Answer

hello. première chose à check c'est prometheus lui-même. va dans l'ui sous /alerts et regarde si l'alerte apparaît en pending ou firing. si elle n'apparaît pas du tout c'est que l'expression est ptete pas bonne ou que la rule_file est pas chargée

marchal-franck · Answer

pour l'expr du cpu attention au 100 - ... idle. si t'as plusieurs coeurs ça peut être tricky. essaie avec sum by (instance) (rate(node_cpu_seconds_total{mode!="idle"}[5m])) / count by (instance) (node_cpu_seconds_total{mode="idle"}[5m]) * 100 > 90. et regarde les types de métriques (gauge counter) si tu fais pas une connerie avec le rate

charlotte00 · Answer

et la config de alertmanager ? prometheus envoie les alertes à alertmanager. si alertmanager est down ou mal configuré prometheus ne verra pas d'où il doit l'envoyer. check les logs de prometheus pour voir s'il y a des erreurs de connexion à alertmanager

oceane-lebon · Answer

un classique aussi c'est le for: 5m. si tes données ont des gaps ou si l'exporteur est intermittent prometheus ne verra pas 5 minutes de données continues au-dessus du seuil et l'alerte ne partira pas. assure-toi que tes scrape intervals et evaluation intervals sont alignés

maurice-legros · Answer

d'acc merci à tous. en fait c'était une combinaison. ma rule_file n'était pas rechargée après modification (j'avais oublié le kill -hup) et l'expr du cpu était pas tip top. j'ai corrigé le rule_file et l'expr cpu avec vos suggestions et là ça marche impec. j'ai vu l'alerte se déclencher direct en testant. merci bien

prometheus alerte cpu high memory low pas de déclenchement

5 commentaires

Laisser une réponse

Téléchargement et compilation d’un projet SDL

Découverte et utilisation de l'outil Packer

Guide Complet pour la Gestion des Logs en Environnement DevOps

Pourquoi et comment créer des branches sur GitLab

Mettre en place une architecture DRY sur GitLab CI

Rejoindre la communauté