Prévision de liens dans des grands graphes de terrain (application aux réseaux bibliographiques) / Manisha Pujari ; sous la direction de Céline Rouveirol

Date :

Type : Livre / Book

Type : Thèse / Thesis

Langue / Language : anglais / English

Catalogue Worldcat

Multiplexage

Rouveirol, Céline (Directeur de thèse / thesis advisor)

Gangemi, Aldo (Président du jury de soutenance / praeses)

Robardet, Céline (1975-....) (Rapporteur de la thèse / thesis reporter)

Le Grand, Bénédicte (1975-.... ; chercheuse en informatique) (Rapporteur de la thèse / thesis reporter)

Kanawati, Rushed (19..-.... ; chercheur en informatique) (Membre du jury / opponent)

Prieur, Christophe (19..-.... ; auteur en sciences et techniques) (Membre du jury / opponent)

Université Sorbonne Paris Cité (Organisme de soutenance / degree-grantor)

École doctorale Galilée (Villetaneuse, Seine-Saint-Denis) (Ecole doctorale associée à la thèse / doctoral school)

Université Paris 13 (Autre partenaire associé à la thèse / thesis associated third party)

Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis) (Laboratoire associé à la thèse / thesis associated laboratory)

Résumé / Abstract : Nous nous intéressons dans ce travail au problème de prévision de nouveaux liens dans des grands graphes de terrain. Nous explorons en particulier les approches topologiques dyadiques pour la prévision de liens. Différentes mesures de proximité topologique ont été étudiées dans la littérature pour prédire l’apparition de nouveaux liens. Des techniques d’apprentissage supervisé ont été aussi utilisées afin de combiner ces différentes mesures pour construire des modèles prédictifs. Le problème d’apprentissage supervisé est ici un problème difficile à cause notamment du fort déséquilibre de classes. Dans cette thèse, nous explorons différentes approches alternatives pour améliorer les performances des approches dyadiques pour la prévision de liens. Nous proposons d’abord, une approche originale de combinaison des prévisions fondée sur des techniques d’agrégation supervisée de listes triées (ou agrégation de préférences). Nous explorons aussi différentes approches pour améliorer les performances des approches supervisées pour la prévision de liens. Une première approche consiste à étendre l’ensemble des attributs décrivant un exemple (paires de noeuds) par des attributs calculés dans un réseau multiplexe qui englobe le réseau cible. Un deuxième axe consiste à évaluer l’apport destechniques de détection de communautés pour l’échantillonnage des exemples. Des expérimentations menées sur des réseaux réels extraits de la base bibliographique DBLP montrent l’intérêt des approaches proposées.

Résumé / Abstract : In this work, we are interested to tackle the problem of link prediction in complex networks. In particular, we explore topological dyadic approaches for link prediction. Different topological proximity measures have been studied in the scientific literature for finding the probability of appearance of new links in a complex network. Supervided learning methods have also been used to combine the predictions made or information provided by different topological measures. The create predictive models using various topological measures. The problem of supervised learning for link prediction is a difficult problem especially due to the presence of heavy class imbalance. In this thesis, we search different alternative approaches to improve the performance of different dyadic approaches for link prediction. We propose here, a new approach of link prediction based on supervised rank agregation that uses concepts from computational social choice theory. Our approach is founded on supervised techniques of aggregating sorted lists (or preference aggregation). We also explore different ways of improving supervised link prediction approaches. One approach is to extend the set of attributes describing an example (pair of nodes) by attributes calculated in a multiplex network that includes the target network. Multiplex networks have a layered structure, each layer having different kinds of links between same sets of nodes. The second way is to use community information for sampling of examples to deal with the problem of classe imabalance. Experiments conducted on real networks extracted from well known DBLP bibliographic database.