Quaternion neural networks / Titouan Parcollet ; sous la direction de Georges Linarès et de Mohamed Morchid

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Langue / Language : français / French

Catalogue Worldcat

Reconnaissance automatique de la parole

Quaternions

Traitement automatique du langage naturel

Réseaux neuronaux (informatique)

Infographie

Linarès, Georges (Directeur de thèse / thesis advisor)

Morchid, Mohamed (1977-....) (Directeur de thèse / thesis advisor)

Artières, Thierry (19..-.... ; chercheur en informatique) (Président du jury de soutenance / praeses)

Allauzen, Alexandre (1975-....) (Rapporteur de la thèse / thesis reporter)

Camelin, Nathalie (1980-....) (Membre du jury / opponent)

Bengio, Yoshua (1964-....) (Membre du jury / opponent)

Lecouteux, Benjamin (Membre du jury / opponent)

Bost, Xavier (1972-...) (Membre du jury / opponent)

Université d'Avignon et des Pays de Vaucluse (Organisme de soutenance / degree-grantor)

École doctorale 536 « Sciences et agrosciences » (Avignon) (Ecole doctorale associée à la thèse / doctoral school)

Laboratoire informatique d'Avignon (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Au cours des dernières années, l’apprentissage profond est devenu l’approche privilégiée pour le développement d’une intelligence artificielle moderne (IA). L’augmentation importante de la puissance de calcul, ainsi que la quantité sans cesse croissante de données disponibles ont fait des réseaux de neurones profonds la solution la plus performante pour la resolution de problèmes complexes. Cependant, la capacité à parfaitement représenter la multidimensionalité des données réelles reste un défi majeur pour les architectures neuronales artificielles.Pour résoudre ce problème, les réseaux de neurones basés sur les algèbres des nombres complexes et hypercomplexes ont été développés. En particulier, les réseaux de neurones de quaternions (QNN) ont été proposés pour traiter les données tridi- mensionnelles et quadridimensionnelles, sur la base des quaternions représentant des rotations dans notre espace tridimensionnel. Malheureusement, et contrairement aux réseaux de neurones à valeurs complexes qui sont de nos jours acceptés comme une alternative aux réseaux de neurones réels, les QNNs souffrent de nombreuses lacunes qui sont en partie comblées par les différents travaux détaillés par ce manuscrit.Ainsi, la thèse se compose de trois parties qui introduisent progressivement les concepts manquants, afin de faire des QNNs une alternative aux réseaux neuronaux à valeurs réelles. La premiere partie présente et répertorie les précédentes découvertes relatives aux quaternions et aux réseaux de neurones de quaternions, afin de définir une base pour la construction des QNNs modernes.La deuxième partie introduit des réseaux neuronaux de quaternions état de l’art, afin de permettre une comparaison dans des contextes identiques avec les architectures modernes traditionnelles. Plus précisément, les QNNs étaient majoritairement limités par leurs architectures trop simples, souvent composées d’une seule couche cachée comportant peu de neurones. Premièrement, les paradigmes fondamentaux, tels que les autoencodeurs et les réseaux de neurones profonds sont présentés. Ensuite, les très répandus et étudiés réseaux de neurones convolutionnels et récurrents sont étendus à l’espace des quaternions. De nombreuses experiences sur différentes applications réelles, telles que la vision par ordinateur, la compréhension du langage parlé ainsi que la reconnaissance automatique de la parole sont menées pour comparer les modèles de quaternions introduits aux réseaux neuronaux conventionnels. Dans ces contextes bien spécifiques, les QNNs ont obtenus de meilleures performances ainsi qu’une réduction importante du nombre de paramètres neuronaux nécessaires à la phase d’apprentissage.Les QNNs sont ensuite étendus à des conditions d’entrainement permettant de traiter toutes les représentations en entrée des modèles de quaternions. Dans un scénario traditionnel impliquant des QNNs, les caractéristiques d’entrée sont manuellement segmentées en quatre composants, afin de correspondre à la representation induite par les quaternions. Malheureusement, il est difficile d’assurer qu’une telle segmentation est optimale pour résoudre le problème considéré. De plus, une segmentation manuelle réduit fondamentalement l’application des QNNs à des tâches naturellement définies dans un espace à au plus quatre dimensions. De ce fait, la troisième partie de cette thèse introduit un modèle supervisé et un modèle non supervisé permettant l’extraction de caractéristiques d’entrée désentrelacées et significatives dans l’espace des quaternions, à partir de n’importe quel type de signal réel uni-dimentionnel, permettant l’utilisation des QNNs indépendamment de la dimensionnalité des vecteurs d’entrée et de la tâche considérée. Les expériences menées sur la reconnaissance de la parole et la classification de documents parlés montrent que les approches proposées sont plus performantes que les représentations traditionnelles de quaternions.

Résumé / Abstract : In the recent years, deep learning has become the leading approach to modern artificial intelligence (AI). The important improvement in terms of processing time required for learning AI based models alongside with the growing amount of available data made of deep neural networks (DNN) the strongest solution to solve complex real-world problems. However, a major challenge of artificial neural architectures lies on better considering the high-dimensionality of the data.To alleviate this issue, neural networks (NN) based on complex and hypercomplex algebras have been developped. The natural multidimensionality of the data is elegantly embedded within complex and hypercomplex neurons composing the model. In particular, quaternion neural networks (QNN) have been proposed to deal with up to four dimensional features, based on the quaternion representation of rotations and orientations. Unfortunately, and conversely to complex-valued neural networks that are nowadays known as a strong alternative to real-valued neural networks, QNNs suffer from numerous limitations that are carrefuly addressed in the different parts detailled in this thesis.The thesis consists in three parts that gradually introduce the missing concepts of QNNs, to make them a strong alternative to real-valued NNs. The first part introduces and list previous findings on quaternion numbers and quaternion neural networks to define the context and strong basics for building elaborated QNNs.The second part introduces state-of-the-art quaternion neural networks for a fair comparison with real-valued neural architectures. More precisely, QNNs were limited by their simple architectures that were mostly composed of a single and shallow hidden layer. In this part, we propose to bridge the gap between quaternion and real-valued models by presenting different quaternion architectures. First, basic paradigms such as autoencoders and deep fully-connected neural networks are introduced. Then, more elaborated convolutional and recurrent neural networks are extended to the quaternion domain. Experiments to compare QNNs over equivalents NNs have been conducted on real-world tasks across various domains, including computer vision, spoken language understanding and speech recognition. QNNs increase performances while reducing the needed number of neural parameters compared to real-valued neural networks.Then, QNNs are extended to unconventional settings. In a conventional QNN scenario, input features are manually segmented into three or four components, enabling further quaternion processing. Unfortunately, there is no evidence that such manual segmentation is the representation that suits the most to solve the considered task. Morevover, a manual segmentation drastically reduces the field of application of QNNs to four dimensional use-cases. Therefore the third part introduces a supervised and an unsupervised model to extract meaningful and disantengled quaternion input features, from any real-valued input signal, enabling the use of QNNs regardless of the dimensionality of the considered task. Conducted experiments on speech recognition and document classification show that the proposed approaches outperform traditional quaternion features.