Clustering de données mixtes avec valeurs manquantes : Comparaison du consensus clustering après imputation multiple et d’un algorithme k-POD amélioré dans une cohorte de patients drépanocytaires

Hematology Données primaires poster

Auteurs : MA. Rasendra, M. Cals Maurette, G. Cheminet, JB. Arlet, J. Chassetuillier, E. Herquelot-Villard

Date de publication : 22 May 2026

Objectives

Les analyses de clustering réalisées dans les cohortes épidémiologiques doivent pouvoir gérer les données manquantes sans exclure de patients ni introduire de biais. L’objectif de ce travail est de comparer deux approches permettant de réaliser un clustering sur des données mixtes en présence de valeurs manquantes : • Un consensus clustering appliqué après imputations multiples (MICE) • Une version améliorée de l’algorithme k-POD, combinant k-POD et k-prototypes pour tenir compte de la nature mixte des variables.

Conclusion

Face aux données manquantes, les deux méthodes ont démontré leur capacité à identifier des sous-groupes cliniquement cohérents. Le consensus clustering après imputations multiples demeure la méthode de référence à privilégier en première intention, offrant la meilleure qualité de partition et une discrimination fiable des outliers. Pour les larges cohortes, l'algorithme k-POD amélioré représente une alternative pragmatique et performante, grâce à son gain de vitesse substantiel.

Go to the publication

Publications

Clustering de données mixtes avec valeurs manquantes : Comparaison du consensus clustering après imputation multiple et d’un algorithme k-POD amélioré dans une cohorte de patients drépanocytaires

Objectives

Conclusion

Heva news

Let's talk about your project

Subscribe to our newsletter

Find out more

Services

Know-how

Mandatory information