Système de réponse automatique à des questions grâce à Wikipédia

PLACAT est un système de Question-Réponse basé sur Wikipédia, développé à la HEIG-VD. Le système est basé sur deux outils : ElasticSearch pour trouver la page Wikipédia contenant la réponse et BERT pour extraire la réponse de celle-ci. Dans le but d'améliorer les performances de PLACAT, un nouvel algorithme a été mis en place. Son but est d'améliorer la recherche de paragraphes pertinents dans les articles de Wikipédia.

L'algorithme est séparé en trois phases. La première est le traitement de la question pour identifier les mots-clés de celle-ci. Les mots-clés sont valorisés selon leur importance. Les noms propres et les adverbes sont, par exemple, beaucoup valorisés.

La deuxième phase est l'extraction des passages susceptibles de contenir la réponse parmi ceux des pages trouvées par ElasticSearch. Le score de chaque passage de N phrases est calculé comme le nombre de mots en commun entre le passage est la question.

Pour finir, la troisième phase est la sélection de la meilleure réponse extraite par BERT des divers paragraphes. Il s'agit de la réponse qui se répète le plus souvent (de faibles variations étant autorisées) car elle a le plus de chances d'être la meilleure.

Pour l'évaluation du système, nous avons choisi Natural Questions comme jeu de données de test. Le projet prévoyait initialement de travailler avec SQuAD mais les questions étaient trop proches des paragraphes ayant servi à les générer. Les questions de Natural Questions sont plus naturelles et moins ambigües.

Le taux de bonnes réponses est passé de 2,6% avec le système initial à 9,1% grâce au nouvel algorithme, une augmentation d'un facteur 3,5. L'évaluation a montré qu'il subsiste encore des questions ambiguës (p.ex. contenant « this year ») qui empêchent une amélioration plus grande du score.

Etudiant: Matthieu Godi

Année: 2022

Département: TIC

Filière: Informatique et systèmes de communication (anciennement Télécommunications) avec orientation en Sécurité de l'information

Type de formation: Plein temps

Enseignant responsable: Andrei Popescu-Belis

Institut: IICT

Téléchargements:
- Télécharger l'affiche
- Télécharger le rapport