Thanks to visit codestin.com
Credit goes to theses.fr

Thèse soutenue

Recherche de passage dans les documents de standardisations

FR  |  
EN
Auteur / Autrice : Lucas Albarede
Direction : Philippe Mulhem
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 29/03/2023
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble, Isère, France ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble (Isère, France ; 2007-....)
Equipe de recherche : Équipe de recherche Modélisation et recherche d'information multimédia (Grenoble ; 2007-....)
CIFRE : Schneider Legrand
Jury : Président / Présidente : Marie-Christine Rousset
Examinateurs / Examinatrices : Florina Piroi
Rapporteurs / Rapporteuses : Sylvie Calabretto, Patrice Bellot

Résumé

FR  |  
EN

Ce travail de thèse se concentre sur la recherche de passages textuels, qui consiste à retrouver de petits extraits de documents.Les concepteurs d'un réseau électrique doivent souvent lire de longs documents de standardisation, et nous souhaitons leur fournir un système avec lequel ils peuvent répondre efficacement à leur besoin d'information.Dans cette thèse, nous proposons d'étudier des modèles d'estimation de la pertinence qui exploitent les caractéristiques des standards afin d'en améliorer les performances.Plus précisément, nous considérons leur structure physique, leurs références inter- et intra-documents et leur vocabulaire technique.Notre première contribution porte sur le problème de la contextualisation des passages, qui consiste à prendre en compte le contexte d'un passage pour en estimer la pertinence.Nous considérons le contexte d'un passage par rapport à la structure du document qui le contient, et nous proposons deux approches pour exploiter ce contexte.Nous utilisons des modèles traditionnels d'estimation de la pertinence qui permettent une recherche efficace et efficiente, et atteignent des performances significativement plus élevées que celle de la littérature.Notre deuxième contribution se concentre sur le problème de la contextualisation des passages en utilisant des méthodes basées sur les réseaux neuronaux.Nous considérons la structure d'un document en tant que graphe et étudions l'utilisation de graph neural networks qui sont des réseaux neuronaux spécialisés dans les données graphiques dont le but est de calculer des représentations sémantiques de passages.Nous exploitons ces représentations dans un modèle d'estimation de la pertinence basé sur les réseaux neuronaux.Bien que cette approche soit moins efficace, elle atteint des performances significativement meilleures par rapport à la littérature ainsi que par rapport à notre solution qui utilise des méthodes traditionnelles.Notre troisième contribution se concentre sur la prise en compte simultanée des entités et du problème de contextualisation des passages en utilisant des méthodes de réseaux neuronaux.Nous considérons des représentations de documents sous forme de graphes auxquelles nous ajoutons des entités, et calculons des représentations de passages sémantiques en utilisant des graph neural networks.De manière similaire à notre deuxième contribution, nous intégrons ces représentations dans un modèle d'estimation de pertinence neuronaux.Nous montrons que la prise en compte des entités ainsi que de la structure d'un document améliorent significativement les résultats par rapport à uniquement la prise en compte de la structure.