I/O wait kernel linux élevé sur prod rds postgres

Question

salut la team on a un gros pb de perf sur une instance rds postgres. l'i/o wait est super élevé genre 70-80% par moments. c'est une gp3 de 500go avec 3000 iops alloués. les requêtes sont pas si folles que ça et le cpu est ok. des idées où chercher dans les logs ou les métriques ?

nruiz · Answer

hello t'as check la queue depth de ton volume ebs dans cloudwatch ? si elle est constamment haute c'est que l'instance postgres n'arrive pas à suivre avec les iops du disque

hugues44 · Answer

regarde les logs postgres en détails. des fois c'est des requêtes mal optimisées qui font des full table scans ou qui créent énormément de temp files sur le disque ce qui explose les iops

gregoire-chretien · Answer

la gp3 a 3000 iops baseline mais si ton workload a des blocs de données très petits ou très grands ça peut impacter les perfs. t'as quelle taille de bloc i/o moyenne ?

dasilva-christophe · Answer

et la version de postgres ? certaines versions ont des améliorations sur la gestion de l'i/o et du buffering. et ton checkpoint_timeout ou wal_buffers peuvent aussi jouer

wroche · Answer

est-ce que ton instance rds est dans le même az que tes instances applicatives ? des fois les latences inter-az même faibles peuvent s'accumuler sur des workloads intenses en i/o

godard-antoinette · Answer

regarde aussi les métriques Enhanced Monitoring de rds ça donne des infos plus fines sur le système d'exploitation sous-jacent à la base de données. ça peut te montrer des pics d'i/o sur des fichiers spécifiques

anais16 · Answer

et le type d'instance rds ? si elle est pas assez puissante en cpu/ram ça peut aussi limiter sa capacité à traiter les i/o même si le disque a des iops dispo

poirier-thierry · Answer

ok un mélange de tout ça j'imagine. le queue depth était bien haut et en fait le problème venait de quelques requêtes avec des jointures pas optimales qui faisaient du full scan. et aussi on s'est rendu compte que le type d'instance rds était un peu sous-dimensionné pour la mémoire tampon nécessaire. après quelques optimisations sur les requêtes et un scale up de l'instance ça va déjà beaucoup mieux. thx la team !

I/O wait kernel linux élevé sur prod rds postgres

8 commentaires

Laisser une réponse

Les Pages Wiki sur GitLab pour centraliser votre documentation

Mettre en place une architecture DRY sur GitLab CI

MLOps : Le DevOps au Cœur de l'Intelligence Artificielle

Ambient Mesh : Simplifiez vos microservices, réinventez l'orchestration et la sécurité

L'Ère des Environnements DevOps Neuro-Adaptatifs : L'IA au Service de l'Expérience Humaine

Rejoindre la communauté