Model-based clustering and model selection for binned data. / Jingwen Wu ; sous la direction de Gilles Fleury

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Catalogue Worldcat

Classification automatique

Structures de données (informatique)

Classification Dewey : 378.242

Fleury, Gilles (19..-.... ; ingénieur) (Directeur de thèse / thesis advisor)

Duhamel, Pierre (1953-.... ; professeur de physique) (Président du jury de soutenance / praeses)

Chiclana, Francisco (Rapporteur de la thèse / thesis reporter)

Fujita, Hamido (Rapporteur de la thèse / thesis reporter)

Hamdan, Hani (Membre du jury / opponent)

Nikiforov, Igor Vladimirovitch (1950-....) (Membre du jury / opponent)

École supérieure d'électricité (Gif-sur-Yvette, Essonne) (Organisme de soutenance / degree-grantor)

Ecole doctorale Sciences et Technologies de l'Information, des Télécommunications et des Systèmes (Orsay, Essonne ; 2000-2015) (Ecole doctorale associée à la thèse / doctoral school)

Résumé / Abstract : Cette thèse étudie les approches de classification automatique basées sur les modèles de mélange gaussiens et les critères de choix de modèles pour la classification automatique de données discrétisées. Quatorze algorithmes binned-EM et quatorze algorithmes bin-EM-CEM sont développés pour quatorze modèles de mélange gaussiens parcimonieux. Ces nouveaux algorithmes combinent les avantages des données discrétisées en termes de réduction du temps d’exécution et les avantages des modèles de mélange gaussiens parcimonieux en termes de simplification de l'estimation des paramètres. Les complexités des algorithmes binned-EM et bin-EM-CEM sont calculées et comparées aux complexités des algorithmes EM et CEM respectivement. Afin de choisir le bon modèle qui s'adapte bien aux données et qui satisfait les exigences de précision en classification avec un temps de calcul raisonnable, les critères AIC, BIC, ICL, NEC et AWE sont étendus à la classification automatique de données discrétisées lorsque l'on utilise les algorithmes binned-EM et bin-EM-CEM proposés. Les avantages des différentes méthodes proposées sont illustrés par des études expérimentales.

Résumé / Abstract : This thesis studies the Gaussian mixture model-based clustering approaches and the criteria of model selection for binned data clustering. Fourteen binned-EM algorithms and fourteen bin-EM-CEM algorithms are developed for fourteen parsimonious Gaussian mixture models. These new algorithms combine the advantages in computation time reduction of binning data and the advantages in parameters estimation simplification of parsimonious Gaussian mixture models. The complexities of the binned-EM and the bin-EM-CEM algorithms are calculated and compared to the complexities of the EM and the CEM algorithms respectively. In order to select the right model which fits well the data and satisfies the clustering precision requirements with a reasonable computation time, AIC, BIC, ICL, NEC, and AWE criteria, are extended to binned data clustering when the proposed binned-EM and bin-EM-CEM algorithms are used. The advantages of the different proposed methods are illustrated through experimental studies.