Optimisation Prometheus grosse conso RAM/CPU

rene02 21/06/2024
RÉSOLU
rene02
Auteur Actif
Avatar de rene02
rene02
Auteur Actif

Salut à tous ! notre Prometheus galère un max en ce moment surtout la RAM. on a des millions de séries actives et le scrape interval est de 15s. le CPU monte aussi en flèche quand on a trop de requêtes Grafana. on est sur un gros serveur mais ça suffit plus. des astuces pour optimiser ?

21/06/2024 à 15:34

9 commentaires

stephanie-roy
Membre Actif
Avatar de stephanie-roy
stephanie-roy
Membre Actif

ok première chose à checker le retention period. vous gardez les métriques combien de temps ? si c'est trop long et que c'est pas absolument nécessaire pour tes besoins, réduis-le ça économise énormément de RAM et de disque.

22/06/2024 à 10:18
rene02
Auteur Actif
Avatar de rene02
rene02
Auteur Actif

30 jours, c'est requis pour l'historique de notre monitoring. difficile de le baisser.

23/06/2024 à 05:53
laure90
Membre Actif
Avatar de laure90
laure90
Membre Actif

alors regarde le scrape config. t'as des relabelings ? des drop de métriques inutiles ? ça aide énormément de pas ingérer ce qui sert à rien, surtout les métriques qui changent trop souvent ou avec des labels à forte cardinalité.

24/06/2024 à 04:21
stephanie-roy
Membre Actif
Avatar de stephanie-roy
stephanie-roy
Membre Actif

oui la cardinalité c'est le mal. si t'as des labels avec des valeurs uniques par requêtes par exemple, genre des request ids, ça explose le nombre de séries et donc la ram. faut absolument filtrer ça avec des relabel_configs.

24/06/2024 à 23:14
paris-alexandria
Membre Actif
Avatar de paris-alexandria
paris-alexandria
Membre Actif

pour le CPU sur les requêtes, t'utilises Thanos, Cortex ou un truc du genre pour le scale-out ? ou c'est juste Prometheus vanilla ? et les dashboards Grafana font des requêtes sur quelle période généralement ? des requêtes sur un an c'est super lourd.

25/06/2024 à 19:06
rene02
Auteur Actif
Avatar de rene02
rene02
Auteur Actif

Prometheus vanilla. les requêtes des dashboards Grafana c'est souvent sur 1h ou 6h max. j'ai des relabelings mais ptete pas assez agressifs sur certaines métriques. faut que je regarde ça de plus près.

26/06/2024 à 19:06
laure90
Membre Actif
Avatar de laure90
laure90
Membre Actif

fais un promtool tsdb analyze sur ta base de données prometheus. ça va te donner une idée précise des métriques les plus gourmandes en cardinalité et en espace disque. c'est super utile pour cibler ce qu'il faut virer ou aggréger.

27/06/2024 à 17:49
stephanie-roy
Membre Actif
Avatar de stephanie-roy
stephanie-roy
Membre Actif

et pour les scrape intervals, si certaines métriques sont pas critiques au 15s, tu peux les passer à 30s ou 1min. moins de points ingérés, moins de ram et moins de cpu de processing.

28/06/2024 à 14:21
rene02
Auteur Actif
Avatar de rene02
rene02
Auteur Actif

OK je vais d'abord creuser le promtool tsdb analyze et affiner les relabelings. on a clairement des métriques d'application avec des ids de transactions qui sont pas du tout utiles en monitoring long terme. ça doit être ça la cardinalité qui tue la ram. merci pour les pistes !

29/06/2024 à 12:30

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire