devopssec
n'est en aucun cas responsable du contenu généré par l'utilisateur. Le contenu posté
exprime les opinions de leur auteur seulement.
Les textes et messages publiés sont la propriété de ceux qui les postent.
je fais de mon mieux pour modérer les propos inappropriés qui pourraient être postés ici,
mais je me dégage de toute responsabilité sur ce que vous postez.
Vous demeurez le seul responsable de vos actes et de vos messages au regard de la loi.
Vous acceptez de ne pas utiliser le service pour poster ou lier vers un contenu qui est
diffamatoire, injurieux, haineux, menaçant, spams ou pourriels, étant de nature à offenser,
ayant un contenu réservé aux adultes ou répréhensible, contenant des renseignements
personnels des autres, risquant de violer les droits d'auteurs, encourageant une activité
illégale ou contraire à toutes les lois.
Le respect est la principale qualité de notre communauté. En conséquence, veillez à l'être envers
vos camarades ici présents, en particulier les nouveaux membres qui comme vous, cherchent
à découvrir l'univers DEVOPS, et n'ont pas toutes vos connaissances.
Tout manque de respect à l'encontre d'un membre, néophyte ou non, entraînera également des sanctions,
à savoir avertissements, bannissements voire poursuites selon la gravité de la situation.
devopssec
décline toute responsabilité concernant les rencontres réelles.
lucie-perret
Membre depuis le 20/05/2024
alors pour le flapping c'est le grand classique. t'as plusieurs options. la première c'est d'utiliser l'option FOR de ton alert rule. genre si l'alerte est ON depuis moins de 5min tu la déclenches pas. ça lisse les spikes rapides.
isaac92
Membre depuis le 24/07/2024
ouais le FOR c la base. si ça suffit pas tu peux aussi jouer sur les seuils. si ton service est lent mais pas down, ptete que ton healthcheck est trop agressif. tu peux le passer de 1s à 5s pour avoir une meilleure fenêtre. ou si c une métrique, ajuste le seuil de déclenchement.
carpentier-aurore
Membre depuis le 29/05/2024
y'a aussi le concept de silences dans alertmanager si c'est un problème connu et temporaire. tu peux faire un silence de X heures. mais c'est pas une solution long terme. pour le long terme il faut des bons seuils et un bon FOR.
leon92
Membre depuis le 24/04/2024
le FOR j'y avais pensé mais je savais pas trop quelle durée. 5m ça me semble pas mal. pour les seuils le souci c'est que le service est vraiment down quand le healthcheck fail même si c'est pour 30s. c'est la nature de ce worker batch. l'idée c'est de notifier si il est en carafe longtemps pas juste un petit hoquet.
manon-leroux
Membre depuis le 24/07/2024
dans ce cas un truc qu'on fait c'est une combinaison FOR et un compteur de défaillances. plutot que d'alerter si c'est DOWN, tu alertes si COUNTER_OF_FAILURES_PER_MINUTE > X pendant Y minutes. ça permet de tolérer quelques drops mais pas un flot constant.
leon92
Membre depuis le 24/04/2024
ok je vais commencer par le FOR: 5m et je vais voir si ça réduit le bruit. le compteur de défaillances c'est une bonne idée aussi si le FOR est pas suffisant. thx pour les tips la team.