9 commentaires
ok première chose à checker le retention period. vous gardez les métriques combien de temps ? si c'est trop long et que c'est pas absolument nécessaire pour tes besoins, réduis-le ça économise énormément de RAM et de disque.
oui la cardinalité c'est le mal. si t'as des labels avec des valeurs uniques par requêtes par exemple, genre des request ids, ça explose le nombre de séries et donc la ram. faut absolument filtrer ça avec des relabel_configs.
pour le CPU sur les requêtes, t'utilises Thanos, Cortex ou un truc du genre pour le scale-out ? ou c'est juste Prometheus vanilla ? et les dashboards Grafana font des requêtes sur quelle période généralement ? des requêtes sur un an c'est super lourd.
et pour les scrape intervals, si certaines métriques sont pas critiques au 15s, tu peux les passer à 30s ou 1min. moins de points ingérés, moins de ram et moins de cpu de processing.
OK je vais d'abord creuser le promtool tsdb analyze et affiner les relabelings. on a clairement des métriques d'application avec des ids de transactions qui sont pas du tout utiles en monitoring long terme. ça doit être ça la cardinalité qui tue la ram. merci pour les pistes !
Laisser une réponse
Vous devez être connecté pour poster un message !
Salut à tous ! notre Prometheus galère un max en ce moment surtout la RAM. on a des millions de séries actives et le scrape interval est de 15s. le CPU monte aussi en flèche quand on a trop de requêtes Grafana. on est sur un gros serveur mais ça suffit plus. des astuces pour optimiser ?