Traitement à grand échelle des données symboliques / Omar Merroun ; sous la direction de Philippe Rigaux et Edwin Diday

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : français / French

Analyse des données symboliques

Bases de données

Exploration de données

Rigaux, Philippe (1963-....) (Directeur de thèse / thesis advisor)

Diday, Edwin (1940-.... ; auteur en informatique) (Directeur de thèse / thesis advisor)

Université Paris Dauphine-PSL (1968-....) (Organisme de soutenance / degree-grantor)

Résumé / Abstract : Les méthodes de l’Analyse de Données (AD) classiques ont été généralisées dans l’Analyse de Données Symboliques (ADS) en prenant en charge les données complexes (intervalles, ensembles, histogrammes, etc.). Ces méthodes expriment des operations de haut niveau et sont très complexes. Le modèle de l’ADS, qui est implanté dans le logiciel SODAS2, ne supporte pas le traitement de volumes importants de données symboliques. Conformément à la démarche classique en modélisation et traitement de masses de données, nous proposons un nouveau modèle de données pour représenter les données symboliques et les manipuler avec des opérateurs algébriques minimaux et clos par composition. Nous donnons aussi des exemples de requêtes pour montrer l’expressivité de ce modèle. Nous avons implanté ce modèle algébrique, nommé LS-SODAS, et définit un langage, nommé XSDQL, pour formuler des requêtes afin de manipuler les données symboliques. Nous réalisons deux études de cas qui illustrent d’une part l’expressivité de ce langage et la capacité à traiter des volumes de données importants

Résumé / Abstract : Symbolic Data Analysis (SDA) proposes a generalization of classical Data Analysis (AD) methods using complex data (intervals, sets, histograms). These methods define high level and complex operators for symbolic data manipulation. Furthermore, recent implementations of the SDA model are not able to process large data volumes. According to the classical design of massive data computation, we define a new data model to represent and process symbolic data using algebraic operators that are minimal and closed by composition.We give some query samples to emphasize the expressiveness of our model. We implement this algebraic model, called LS-SODAS, and we define the language XSDQL to express queries for symbolic data manipulation. Two cases of study are provided in order to show the potential of XSDQL langage expressiveness and the data processing scalability