Source : Actualités MIT
Bien que les capacités des grands modèles linguistiques soient impressionnantes, elles sont encore loin d’être parfaites. Ces modèles d’IA peuvent parfois « halluciner » et générer des informations incorrectes ou infondées en réponse aux requêtes.
En raison de ce problème illusoire, les réponses des modèles doivent souvent être vérifiées par des évaluateurs humains, en particulier dans des environnements à enjeux élevés tels que la santé ou la finance. Cependant, le processus de validation nécessite souvent de lire de longs documents référencés par le modèle, une tâche fastidieuse et sujette aux erreurs qui peut dissuader certains utilisateurs d'utiliser des modèles d'IA génératifs.
Pour aider les vérificateurs humains, les chercheurs du MIT ont créé un système convivial qui permet aux utilisateurs de vérifier plus rapidement les réponses de grands modèles de langage. L'outil, appelé SymGen, permet à LLM de générer des réponses avec des références qui pointent directement vers des emplacements spécifiques dans le document source, comme une cellule d'une base de données.
Les utilisateurs peuvent survoler les parties en surbrillance des réponses textuelles pour voir les données utilisées par le modèle pour générer des mots ou des expressions spécifiques. Pendant ce temps, les parties non mises en évidence montrent des phrases qui nécessitent une attention supplémentaire pour l'inspection et la vérification.
"Nous donnons aux gens la possibilité de se concentrer de manière sélective sur les parties du texte auxquelles ils doivent prêter plus d'attention. En fin de compte, SymGen améliore la confiance des gens dans la réponse du modèle car ils peuvent facilement revérifier pour garantir la fiabilité des informations. " & Computer Science, a déclaré Shannon Shen, étudiante diplômée, co-premier auteur de l'article SymGen.
Grâce à des recherches auprès des utilisateurs, Shen et ses collaborateurs ont découvert que le temps de vérification à l'aide de SymGen était réduit d'environ 20 % par rapport au processus manuel. En rendant le processus de validation des résultats du modèle plus rapide et plus simple, SymGen aide à identifier les erreurs dans les LLM utilisés dans diverses applications du monde réel, de la génération de dossiers cliniques à la synthèse des rapports sur les marchés financiers.
Les co-auteurs de Shen sur l'article comprennent également le co-premier auteur Lucas Torroba Hennigen, étudiant diplômé de l'EECS ; Aniruddha « Ani » Nrusimha, président de la Good Data Initiative et auteur principal David Sontag, professeur de l'EECS ; et membre de la MIT Jameel Clinic, Computer Science avec le chef du groupe d'apprentissage automatique clinique du laboratoire d'intelligence artificielle (CSAIL) et le professeur adjoint Yoon Kim, membre du CSAIL ; La recherche a été récemment présentée lors d’une conférence sur la modélisation du langage.
Référence du symbole
Pour faciliter la vérification, de nombreux LLM sont conçus pour générer des références à des documents externes et fournir des réponses linguistiques pour l'inspection des utilisateurs. Cependant, ces systèmes de vérification sont souvent une réflexion secondaire et ne prennent pas en compte les efforts requis par les gens pour passer au crible un grand nombre de citations, a déclaré Shen.
"Le but de l'IA générative est de réduire le temps nécessaire aux utilisateurs pour accomplir une tâche. Si vous devez passer des heures à lire ces documents pour vérifier si les affirmations du modèle sont raisonnables, le contenu généré sera moins utile dans les applications réelles. " "Dit Shen.
Les chercheurs ont abordé cette question du point de vue de la personne qui effectuerait le travail de validation.
Les utilisateurs de SymGen fournissent d'abord à LLM des données qui peuvent être utilisées comme référence, comme un tableau contenant les statistiques des matchs de basket-ball. Les chercheurs effectuent ensuite une étape intermédiaire sans demander immédiatement au modèle d'accomplir une tâche, comme générer un résumé de correspondance à partir de ces données. Ils incitent le modèle à générer des réponses sous forme symbolique.
Avec cette invite, chaque fois que le modèle souhaite référencer un mot dans une réponse, il doit écrire la cellule spécifique du tableau de données qui contient cette information. Par exemple, si le modèle souhaite faire référence à l'expression « Portland Trail Blazers » dans une réponse, il remplacera ce texte par les noms des cellules du tableau de données contenant ces mots.
"Grâce à cette étape intermédiaire où le texte est présenté dans un format symbolique, nous pouvons obtenir un référencement très fin. Nous pouvons clairement indiquer à quelle partie des données correspond chaque morceau de texte de la sortie", explique Torroba Hennigen.
SymGen utilise ensuite des outils basés sur des règles pour analyser chaque référence, en copiant le texte correspondant de la table de données dans la réponse du modèle.
"De cette façon, nous savons qu'il est copié textuellement, nous pouvons donc nous assurer qu'il n'y a pas d'erreur dans les parties du texte qui correspondent aux variables de données réelles", a ajouté Shen.
Simplifiez la vérification
Le modèle est capable de générer des réponses symboliques grâce à la manière dont il est formé. Les grands modèles de langage acceptent de grandes quantités de données provenant d'Internet, dont certaines sont enregistrées au format « espace réservé » avec des codes remplaçant les valeurs réelles.
SymGen utilise une structure similaire lorsqu'il invite le modèle à générer des réponses symboliques.
"Nous avons conçu les invites d'une manière spécifique pour libérer les capacités du LLM", a ajouté Shen.
Dans les études d'utilisateurs, la plupart des participants ont déclaré que SymGen facilitait la vérification du texte généré par LLM. Ils ont vérifié les réponses du modèle environ 20 % plus rapidement qu’en utilisant les méthodes standard.
Cependant, l'efficacité de SymGen est limitée par la qualité des données sources. Le LLM peut faire référence aux mauvaises variables, et le vérificateur humain peut ne pas en être conscient.
De plus, les utilisateurs doivent fournir les données sources dans un format structuré (tel qu'un tableau) pour les saisir dans SymGen. Actuellement, le système fonctionne uniquement avec des données tabulaires.
À l'avenir, les chercheurs améliorent les capacités de SymGen à gérer du texte arbitraire et d'autres formes de données. Grâce à cette capacité, il peut aider à valider certaines parties des résumés de documents juridiques générés par l'IA. Ils prévoient également de tester SymGen auprès de médecins pour étudier comment il identifie les erreurs dans les résumés cliniques générés par l’IA.
Ce travail a été financé en partie par LiBERTy Mutual et la MIT Intelligent Discovery Initiative.