8 commentaires
le %steal c'est clair c'est un problème d'hyperviseur ta vm se fait piquer des cycles cpu. ça arrive quand l'hyperviseur est surchargé ou mal configuré niveau cpu. t'as combien de vcpu et de ram alloués à ces vm ?
on a 8 vcpu et 32go de ram par vm. les serveurs physiques sont des machines avec 2x32 cores et 256go de ram. on a beaucoup d'autres vm dessus mais on pensait avoir de la marge.
pas de vmotion ou snapshot planifiés pendant les heures de pointe. je vais regarder le cpu ready time
8 vcpu c'est pas mal pour une seule vm. si t'as beaucoup de vm avec bcp de vcpu alloués l'hyperviseur a du mal à trouver 8 cores physiques libres en même temps pour ta vm. c'est ce qu'on appelle le cpu overcommitment. essaye de réduire les vcpu si possible
bingo ! le cpu ready time était super haut sur ces vm et j'ai vu qu'on avait un overcommitment cpu de fou sur l'hyperviseur. j'ai réduit les vcpu de 8 à 4 sur les vm les moins critiques et j'ai ajusté les cpu shares pour les vm critiques. le steal cpu a chuté drastiquement. merci pour les pistes !
Laisser une réponse
Vous devez être connecté pour poster un message !
yo tout le monde j'ai des vm linux qui tournent sous vmware et on a des spikes de latence et des drops de perf genre 5-10 secondes une ou deux fois par jour quand elles sont sous forte charge cpu
quand ça arrive le %steal cpu explose comme vous voyez là et les apps répondent plus ou très lentement. on est sur des vm critiques ça nous embête pas mal