L'éditeur de Downcodes a appris que des chercheurs de Meta FAIR, de l'Université de Californie à Berkeley et de l'Université de New York ont collaboré pour développer une nouvelle technologie appelée Thinking Preference Optimization (TPO), qui vise à améliorer considérablement le traitement des instructions et le traitement des grands modèles de langage. (LLM). Qualité de la réponse. Cette technologie dépasse les limites du LLM traditionnel qui se concentre uniquement sur la réponse finale. En simulant le processus de réflexion humaine, le modèle permet de mener une réflexion et une déduction internes avant de donner la réponse, générant ainsi une réponse plus précise et cohérente. Cette technologie devrait révolutionner l’application du LLM dans divers domaines et offrir aux utilisateurs une meilleure expérience interactive d’IA.
Le cœur de la technologie TPO est la méthode de raisonnement améliorée Chain of Thinking (CoT). Cette approche encourage les modèles à « réfléchir avant de répondre » pendant la formation, les aidant ainsi à développer un processus de réflexion interne plus organisé avant de fournir une réponse finale. Les invites CoT traditionnelles entraînent parfois une précision réduite et sont assez difficiles à entraîner en raison du manque d'étapes de réflexion claires. TPO surmonte avec succès ces défis en permettant aux modèles d'optimiser et de simplifier leurs processus de réflexion sans exposer les étapes intermédiaires aux utilisateurs.
Au cours du processus de formation de TPO, le grand modèle de langage est d'abord invité à générer plusieurs idées, puis la réponse finale est triée. Ces résultats sont ensuite évalués par un modèle de « juge » pour sélectionner les réponses les plus performantes et les moins performantes. Ces résultats d'évaluation sont utilisés sous forme de paires « sélectionner » et « rejeter » pour l'optimisation des préférences directes (DPO) afin d'améliorer continuellement la qualité de la réponse du modèle.
En ajustant les signaux de formation, TPO encourage les modèles à réfléchir en interne avant de répondre. Ce processus guide le modèle pour affiner ses réponses, les rendant plus claires et plus pertinentes. Enfin, le travail d'évaluation est complété par un modèle d'évaluation basé sur LLM, qui note uniquement la réponse finale, étant ainsi indépendant des étapes de réflexion cachées et aidant le modèle à améliorer la qualité de la réponse. TPO utilise également l'optimisation directe des préférences pour créer des paires de réponses préférées et rejetées contenant des réflexions cachées. Après plusieurs cycles de formation, le processus interne du modèle est encore affiné.
Lors des tests de référence par rapport à AlpacaEval et Arena-Hard, la méthode TPO a surpassé les lignes de base de réponse traditionnelles et a surpassé le modèle Llama-3-8B-Instruct de Thinking Tips. La formation itérative de cette approche optimise les capacités de génération de pensées, surpassant finalement plusieurs modèles de base. Il convient de mentionner que TPO n'est pas seulement adapté aux tâches logiques et mathématiques, mais montre également ses talents dans l'enseignement suivant des tâches dans des domaines créatifs tels que le marketing et la santé.
L'expert en IA et robotique Karan Verma a partagé son point de vue sur le concept de « penser LLM » sur la plateforme sociale Bon effet thérapeutique.
Ce processus de réflexion interne structuré permet au modèle de traiter des instructions complexes plus efficacement, élargissant ainsi son application dans des domaines qui nécessitent un raisonnement à plusieurs niveaux et une compréhension détaillée, sans que les humains aient besoin de fournir des données de réflexion spécifiques. Cette recherche montre que TPO a le potentiel de rendre les grands modèles de langage plus flexibles et efficaces dans divers contextes, adaptés aux domaines qui ont des exigences élevées en matière de flexibilité et de profondeur de génération de réponses.
Dans l’ensemble, l’avènement de la technologie TPO a apporté de nouvelles possibilités d’amélioration des performances des grands modèles de langage, et ses perspectives d’application dans divers domaines méritent d’être attendues. L'éditeur de Downcodes estime qu'avec le développement et l'amélioration continus de la technologie, TPO jouera un rôle énorme dans davantage de domaines et contribuera au développement de l'intelligence artificielle.