Modèles de langage neuronaux pour automatiser un service clients

Ce travail de Bachelor étudie la classification thématique des messages adressés par les clients du système RecovR de la société Kudelski. Un corpus de 8'700 tickets nous a été fourni, chacun contenant un message initial et entre 0 et 6 sujets attribués par le service clients.

Deux approches de classification non-supervisée ont été étudiées : le modèle FastText avec des vecteurs pré-entraînés basés sur les n-grammes, comparés avec ceux des sujets par la similarité du cosinus, et le modèle BART-NLI de Huggingface, utilisant des réseaux de neurones profonds, qui retourne la probabilité qu'une séquence en implique une autre (appliqué aux messages et à la description du sujet).

Plusieurs modèles de classification supervisés ont également été examinés avec différentes approches de pré-traitement de texte et trois manières de représenter les messages : l'utilisation du vectoriseur TF-IDF, les vecteurs d'un modèle FastText pré-entraîné, et la concaténation des deux. Le vectoriseur TF-IDF avec le modèle de régression logistique a obtenu les meilleurs scores sur l'ensemble après la recherche du meilleur modèle, avec un taux de réussite de 53.26% et un score F1 moyen de 51%.

Enfin, l'impact de la sélection des données a été évalué, en particulier sur les messages étiquetés comme Duplicates ou Internal Testing, qui se sont avérés être des catégories uniquement informatives. En supprimant les messages ayant ces sujets, nous avons obtenu un taux de réussite de 61.97% avec un score F1 moyen de 58%. Ces résultats soulignent ainsi l'importance de l'analyse exploratoire approfondie et du nettoyage des données pour la mise en place d'un système de réponse automatique aux messages, en mettant en évidence l'impact significatif que peut avoir la sélection des données sur les performances des modèles de classification et offrent également des pistes pour d'éventuelles améliorations futures afin d'optimiser davantage le taux de réussite et le score F1 pour le système RecovR.

Etudiant: Victoria Paige Logan

Année: 2023

Département: TIC

Filière: Informatique et systèmes de communication avec orientation en Ingénierie des données

Type de formation: Plein temps

Partenaire externe: Kudelski Group

Enseignant responsable: Andrei Popescu-Belis

Institut: IICT

Téléchargement:
- Télécharger l'affiche