Kubernetes : Problème de 'Taint' et 'Toleration'

laroche-luc 09/10/2024
RÉSOLU
laroche-luc
Auteur Actif
Avatar de laroche-luc
laroche-luc
Auteur Actif

slt, je viens d'ajouter des nodes avec des GPU sur mon cluster. j'ai mis une taint pour que seuls mes jobs de ML aillent dessus, mais mes pods de ML restent en Pending alors que j'ai mis la toleration

tolerations:
- key: "gpu"
  operator: "Equal"
  value: "true"
  effect: "NoSchedule"
09/10/2024 à 19:08

3 commentaires

ollivier-thibault
Membre Actif
Avatar de ollivier-thibault
ollivier-thibault
Membre Actif

t'as vérifié que les labels des nodes correspondent bien à ce que cherche ton pod ?

10/10/2024 à 17:43
mace-lorraine
Membre Actif
Avatar de mace-lorraine
mace-lorraine
Membre Actif

la toleration permet au pod d'être accepté sur le node, mais elle ne l'oblige pas à y aller. k8s peut quand même essayer de le mettre ailleurs. ajoute un nodeselector ou une nodeaffinity pour forcer le scheduler à choisir spécifiquement ces nodes gpu

Modifié le 23/05/2026 à 16:20
laroche-luc
Auteur Actif
Avatar de laroche-luc
laroche-luc
Auteur Actif

exact, avec le nodeSelector en plus de la toleration, ils popent au bon endroit. merci !

12/10/2024 à 10:56

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire