3 commentaires
le 137 c'est bien un OOM. peut-être un pic brutal que ton monitoring (genre prometheus avec un scrape de 30s) voit pas ?
si t'es sur Java ou Node, check si t'as bien limité la heap size. si ton process s'étale sans que k8s ait le temps de voir la montée, le kernel linux (OOM Killer) va le dézinguer direct pour sauver le node
j'ai mis --max-old-space-size sur mon process node et ça crash plus. le monitoring était effectivement trop lent pour voir le pic
Laisser une réponse
Vous devez être connecté pour poster un message !
yo j'ai un pod qui crash une fois par jour à peu près avec un code 137. le problème c'est que quand je regarde les metrics, il a l'air de consommer que 50% de sa limite de ram