Prometheus OOMKilled sur gros scraping j'en peux plus

Question

Salut la gang j'ai un prometheus qui se fait oomkilled régulièrement sur un cluster k8s de monitoring. on scrape genre 50k métriques par instance et on a pas mal d'instances. on a augmenté la ram allouée au pod mais ça finit toujours par péter. j'ai checké le retention time il est à 15j pas de folie là-dessus. des idées pour réduire la conso mémoire sans virer des métriques essentielles ?
# Partie prometheus.yaml pertinente
global:
  scrape_interval: 30s
  evaluation_interval: 30s
storage:
  tsdb:
    retention: 15d

olivier61 · Answer

yo ! 50k métriques par instance c'est beaucoup. tu as regardé les cardinality des labels ? des fois un label dynamique genre request_id ou session_id explose la cardinality et donc la mémoire de prom. faut virer ces labels useless avec un relabel_config

manon29 · Answer

ah oui la cardinality j'y avais pas pensé. on a pas mal de labels de traces envoyés par nos apps. je vais regarder les métriques avec les plus hautes cardinalités via le ui de prometheus et essayer de les virer.

olivier61 · Answer

grave c'est souvent la cause numéro 1 des OOM. tu peux aussi augmenter le scrape_interval si c'est pas critique d'avoir une résolution ultra fine. passer de 30s à 60s réduit la charge et la mémoire nécessaire mais bon c'est un compromis

manon29 · Answer

j'ai viré quelques labels à haute cardinalité sur nos exporters. la conso ram est redescendue et prometheus tient bon depuis 2h ! merci beaucoup pour le coup de main c'était vraiment ça

Prometheus OOMKilled sur gros scraping j'en peux plus

Commentaires

Laisser une réponse

DevOps Composable : L'Ère des Architectures à Capacités Dynamiques

Souveraineté Numérique & DevOps : Maîtrisez le Contrôle de Vos Données

Révolution Financière DevOps : L'IA au Service de l'Arbitrage Cloud Dynamique

Rejoindre la communauté