Numerical Quality and High Performance In Interval Linear Algebra on Multi-Core Processors / Philippe Theveny ; sous la direction de Gilles Villard

Date : 2014

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Arithmétique en virgule flottante

Theveny, Philippe (1971-....) (Auteur / author)

Villard, Gilles (1963-.... ; chercheur en arithmétique informatique) (Directeur de thèse / thesis advisor)

Baboulin, Marc (1963-....) (Président du jury de soutenance / praeses)

Grandvilliers, Laurent (19..-....) (Rapporteur de la thèse / thesis reporter)

Langou, Julien (1977-....) (Rapporteur de la thèse / thesis reporter)

Putot, Sylvie (19..-.... ; informaticienne) (Membre du jury / opponent)

Revol, Nathalie (19..-.... ; chargée de recherche en informatique) (Membre du jury / opponent)

École normale supérieure de Lyon (2010-...) (Organisme de soutenance / degree-grantor)

École doctorale en Informatique et Mathématiques de Lyon (Ecole doctorale associée à la thèse / doctoral school)

Laboratoire de l'informatique du parallélisme (Lyon ; 1988-....) (Laboratoire associé à la thèse / thesis associated laboratory)

Accès en ligne / online access

Résumé / Abstract : L'objet est de comparer des algorithmes de multiplication de matrices à coefficients intervalles et leurs implémentations.Le premier axe est la mesure de la précision numérique. Les précédentes analyses d'erreur se limitent à établir une borne sur la surestimation du rayon du résultat en négligeant les erreurs dues au calcul en virgule flottante. Après examen des différentes possibilités pour quantifier l'erreur d'approximation entre deux intervalles, l'erreur d'arrondi est intégrée dans l'erreur globale. À partir de jeux de données aléatoires, la dispersion expérimentale de l'erreur globale permet d'éclairer l'importance des différentes erreurs (de méthode et d'arrondi) en fonction de plusieurs facteurs : valeur et homogénéité des précisions relatives des entrées, dimensions des matrices, précision de travail. Cette démarche conduit à un nouvel algorithme moins coûteux et tout aussi précis dans certains cas déterminés.Le deuxième axe est d'exploiter le parallélisme des opérations. Les implémentations précédentes se ramènent à des produits de matrices de nombres flottants. Pour contourner les limitations d'une telle approche sur la validité du résultat et sur la capacité à monter en charge, je propose une implémentation par blocs réalisée avec des threads OpenMP qui exécutent des noyaux de calcul utilisant les instructions vectorielles. L'analyse des temps d'exécution sur une machine de 4 octo-coeurs montre que les coûts de calcul sont du même ordre de grandeur sur des matrices intervalles et numériques de même dimension et que l'implémentation par bloc passe mieux à l'échelle que l'implémentation avec plusieurs appels aux routines BLAS.

Résumé / Abstract : This work aims at determining suitable scopes for several algorithms of interval matrices multiplication.First, we quantify the numerical quality. Former error analyses of interval matrix products establish bounds on the radius overestimation by neglecting the roundoff error. We discuss here several possible measures for interval approximations. We then bound the roundoff error and compare experimentally this bound with the global error distribution on several random data sets. This approach enlightens the relative importance of the roundoff and arithmetic errors depending on the value and homogeneity of relative accuracies of inputs, on the matrix dimension, and on the working precision. This also leads to a new algorithm that is cheaper yet as accurate as previous ones under well-identified conditions.Second, we exploit the parallelism of linear algebra. Previous implementations use calls to BLAS routines on numerical matrices. We show that this may lead to wrong interval results and also restrict the scalability of the performance when the core count increases. To overcome these problems, we implement a blocking version with OpenMP threads executing block kernels with vector instructions. The timings on a 4-octo-core machine show that this implementation is more scalable than the BLAS one and that the cost of numerical and interval matrix products are comparable.