L’essor des grands modèles de langage (LLM), notamment l’utilisation généralisée d’applications telles que ChatGPT, a complètement modifié le modèle d’interaction homme-machine. LLM démontre une capacité impressionnante à générer un texte cohérent et complet. Cependant, l'éditeur de Downcodes a découvert que LLM a également un problème « d'hallucination », c'est-à-dire qu'il génère un contenu qui semble réel mais qui est fictif, dénué de sens ou incompatible avec les invites. Des chercheurs de l'Université Harvard ont mené des recherches approfondies à ce sujet, essayant de révéler les causes et les solutions à « l'illusion » du LLM.
L’émergence des grands modèles de langage (LLM), en particulier la popularité d’applications telles que ChatGPT, a complètement changé la manière dont se font les interactions homme-machine. La capacité des modèles à générer un texte cohérent et complet est impressionnante. Cependant, malgré ses puissantes capacités, LLM est sujet aux « hallucinations », c'est-à-dire à la génération de contenu qui semble réel mais qui est en réalité fictif, dénué de sens ou incompatible avec les invites.
Des chercheurs de l’Université Harvard ont mené une étude approfondie du phénomène « hallucination » du LLM et ont découvert que sa racine réside dans le principe de fonctionnement du LLM. LLM construit un modèle probabiliste en effectuant un apprentissage automatique sur des données textuelles massives et prédit le mot suivant en fonction de la probabilité de cooccurrence des mots. En d’autres termes, LLM ne comprend pas vraiment le sens du langage, mais fait des prédictions basées sur des probabilités statistiques.
Les chercheurs comparent le LLM au « crowdsourcing » et pensent que le LLM produit en réalité un « consensus de réseau ». Tout comme des plateformes comme Wikipédia ou Reddit, LLM extrait des informations à partir de grandes quantités de données textuelles et génère les réponses les plus courantes. Étant donné que la plupart des langues sont utilisées pour décrire le monde, les réponses générées par LLM sont généralement exactes.
Cependant, des « illusions » peuvent survenir lorsque le LLM rencontre des sujets vagues, controversés ou manquant de consensus. Pour tester cette hypothèse, les chercheurs ont conçu une série d’expériences pour tester les performances de différents LLM lorsqu’ils traitent de différents sujets. Les résultats expérimentaux montrent que le LLM fonctionne bien lorsqu'il s'agit de sujets courants, mais que la précision diminue considérablement lorsqu'il s'agit de sujets ambigus ou controversés.
Cette étude montre que bien que le LLM soit un outil puissant, sa précision dépend de la qualité et de la quantité des données d'entraînement. Lorsque vous utilisez LLM, en particulier lorsqu'il s'agit de sujets ambigus ou controversés, ses résultats doivent être traités avec prudence. Cette recherche fournit également des orientations pour le développement futur du LLM, qui concerne la nécessité d'améliorer la capacité du LLM à traiter des sujets ambigus et controversés et d'améliorer l'interprétabilité de ses résultats.
Adresse papier : https://dl.acm.org/doi/pdf/10.1145/3688007
L'étude de Harvard fournit des informations précieuses sur la compréhension et l'amélioration du LLM. Elle nous rappelle également que nous devons utiliser le LLM avec prudence, en particulier lorsque nous traitons de sujets complexes ou controversés, et que nous devons évaluer de manière critique ses résultats. L'orientation future du développement de LLM devrait se concentrer sur l'amélioration de sa capacité à gérer des informations floues et à améliorer l'interprétabilité. L'éditeur de Downcodes espère que cette recherche pourra promouvoir le développement de la technologie LLM dans une direction plus fiable et digne de confiance.