4 commentaires
C'est de la haute cardinalité qui te flingue ton Prometheus. Regarde les metric_relabel_configs pour drop les métriques inutiles ou celles avec trop de labels dynamiques. Genre des UUIDs ou des timestamps dans les labels ça tue
- source_labels: [__name__]target_label: __name__regex: '(.*_id|.*_hash|.*_uuid)'action: drop
Fouille un peu dans tes métriques. Souvent les services devs mettent des labels du genre request_id session_id ou pod_name alors que ça sert à rien de les stocker en tant que labels. Ça crée des millions de séries uniques
Utilise target_limit et series_limit dans la config de Prometheus pour chaque job de scrape. Ça met un plafond aux nombres de cibles et de séries que tu scrape. Si ça dépasse, le scrape rate se plaint
J'ai trouvé une application qui mettait un ID de transaction unique par requête dans une métrique. C'est ça qui flingue tout. J'ai ajouté un relabel_config pour virer ce label. Le CPU a bien baissé. Merci pour le diagnostic
Laisser une réponse
Vous devez être connecté pour poster un message !
mon prometheus il galère niveau cpu. les scrapes prennent trop de temps et j'ai des alertes latency. comment je réduis la charge sans tout casser