Clustering de données mixtes avec valeurs manquantes : Comparaison du consensus clustering après imputation multiple et d’un algorithme k-POD amélioré dans une cohorte de patients drépanocytaires
Objectives
Les analyses de clustering réalisées dans les cohortes épidémiologiques doivent pouvoir gérer les données manquantes sans exclure de patients ni introduire de biais. L’objectif de ce travail est de comparer deux approches permettant de réaliser un clustering sur des données mixtes en présence de valeurs manquantes : • Un consensus clustering appliqué après imputations multiples (MICE) • Une version améliorée de l’algorithme k-POD, combinant k-POD et k-prototypes pour tenir compte de la nature mixte des variables.
Conclusion
Face aux données manquantes, les deux méthodes ont démontré leur capacité à identifier des sous-groupes cliniquement cohérents. Le consensus clustering après imputations multiples demeure la méthode de référence à privilégier en première intention, offrant la meilleure qualité de partition et une discrimination fiable des outliers. Pour les larges cohortes, l'algorithme k-POD amélioré représente une alternative pragmatique et performante, grâce à son gain de vitesse substantiel.
