Optimisation Prometheus grosse conso RAM/CPU

Question

Salut à tous ! notre Prometheus galère un max en ce moment surtout la RAM. on a des millions de séries actives et le scrape interval est de 15s. le CPU monte aussi en flèche quand on a trop de requêtes Grafana. on est sur un gros serveur mais ça suffit plus. des astuces pour optimiser ?

stephanie-roy · Answer

ok première chose à checker le retention period. vous gardez les métriques combien de temps ? si c'est trop long et que c'est pas absolument nécessaire pour tes besoins, réduis-le ça économise énormément de RAM et de disque.

rene02 · Answer

30 jours, c'est requis pour l'historique de notre monitoring. difficile de le baisser.

laure90 · Answer

alors regarde le scrape config. t'as des relabelings ? des drop de métriques inutiles ? ça aide énormément de pas ingérer ce qui sert à rien, surtout les métriques qui changent trop souvent ou avec des labels à forte cardinalité.

stephanie-roy · Answer

oui la cardinalité c'est le mal. si t'as des labels avec des valeurs uniques par requêtes par exemple, genre des request ids, ça explose le nombre de séries et donc la ram. faut absolument filtrer ça avec des relabel_configs.

paris-alexandria · Answer

pour le CPU sur les requêtes, t'utilises Thanos, Cortex ou un truc du genre pour le scale-out ? ou c'est juste Prometheus vanilla ? et les dashboards Grafana font des requêtes sur quelle période généralement ? des requêtes sur un an c'est super lourd.

rene02 · Answer

Prometheus vanilla. les requêtes des dashboards Grafana c'est souvent sur 1h ou 6h max. j'ai des relabelings mais ptete pas assez agressifs sur certaines métriques. faut que je regarde ça de plus près.

laure90 · Answer

fais un promtool tsdb analyze sur ta base de données prometheus. ça va te donner une idée précise des métriques les plus gourmandes en cardinalité et en espace disque. c'est super utile pour cibler ce qu'il faut virer ou aggréger.

stephanie-roy · Answer

et pour les scrape intervals, si certaines métriques sont pas critiques au 15s, tu peux les passer à 30s ou 1min. moins de points ingérés, moins de ram et moins de cpu de processing.

rene02 · Answer

OK je vais d'abord creuser le promtool tsdb analyze et affiner les relabelings. on a clairement des métriques d'application avec des ids de transactions qui sont pas du tout utiles en monitoring long terme. ça doit être ça la cardinalité qui tue la ram. merci pour les pistes !

Optimisation Prometheus grosse conso RAM/CPU

9 commentaires

Laisser une réponse

Participation Challenges CTF Rennes

Création d'un playbook multi distributions

DevOps Composable : L'Ère des Architectures à Capacités Dynamiques

L'Ère des Environnements DevOps Neuro-Adaptatifs : L'IA au Service de l'Expérience Humaine

Le Shift Left est-il l'ennemi n°1 de l'expérience développeur ?

Rejoindre la communauté