3 commentaires
t'as vérifié que les labels des nodes correspondent bien à ce que cherche ton pod ?
la toleration permet au pod d'être accepté sur le node, mais elle ne l'oblige pas à y aller. k8s peut quand même essayer de le mettre ailleurs. ajoute un nodeselector ou une nodeaffinity pour forcer le scheduler à choisir spécifiquement ces nodes gpu
exact, avec le nodeSelector en plus de la toleration, ils popent au bon endroit. merci !
Laisser une réponse
Vous devez être connecté pour poster un message !
slt, je viens d'ajouter des nodes avec des GPU sur mon cluster. j'ai mis une taint pour que seuls mes jobs de ML aillent dessus, mais mes pods de ML restent en Pending alors que j'ai mis la toleration