Ces dernières années, avec le développement rapide de modèles de grandes langues (LLM), le domaine du traitement du langage naturel a inauguré des changements révolutionnaires. Ces technologies avancées ont été largement utilisées dans des scénarios tels que les assistants de code, les moteurs de recherche et les assistants personnels d'IA, montrant des capacités puissantes. Cependant, l'approche traditionnelle de la «prédiction du jetons suivantes» a des limites évidentes dans le traitement de l'inférence complexe et des tâches à long terme, et les modèles nécessitent souvent une formation approfondie pour maîtriser une compréhension conceptuelle profonde.
Pour relever ce défi, des institutions de recherche telles que Meta ont proposé un cadre innovant pré-formation appelé "Méxage de concept continu" (Cocomix). Cette approche conserve non seulement les avantages de la prédiction du jetons suivants, mais introduit également l'apprentissage conceptuel continu par le biais de l'autoencodeur clairsemé (SAE), améliorant ainsi considérablement l'efficacité d'apprentissage et les performances du modèle. Plus précisément, Cocomix a formé un tout nouveau mécanisme d'apprentissage en sélectionnant les concepts les plus influents et en les entrelacant avec la représentation cachée des jetons.
Dans les applications pratiques, les chercheurs ont effectué des évaluations approfondies de Cocomix, couvrant des repères de modélisation de langues multiples et des modèles d'échelles différentes. Les résultats expérimentaux montrent que Cocomix peut toujours maintenir des performances comparables aux prédictions de jetons traditionnelles tout en réduisant les jetons d'entraînement de 21,5%. Cette découverte démontre des améliorations significatives, en particulier dans les petits modèles extraitant des concepts et guidant les grands modèles.
De plus, l'interprétabilité et la manipulation du cocomix sont également devenues l'un de ses avantages fondamentaux. En observant les performances du modèle dans le processus de prédiction, les chercheurs peuvent clairement identifier les concepts sur lesquels le modèle se concentre et manipuler les résultats de sortie du modèle en ajustant la taille du concept. Cette fonctionnalité fournit une nouvelle perspective pour une analyse et une optimisation plus approfondies du modèle.
Dans l'ensemble, Cocomix n'est pas seulement une innovation importante dans les méthodes de formation des modèles de langue existants, mais aussi une tentative importante de Meta de promouvoir le développement de grands modèles. Avec l'avancement continu de la technologie, ce cadre devrait devenir un outil clé dans le domaine du traitement du langage naturel à l'avenir, favorisant l'évolution de l'intelligence artificielle dans une direction plus intelligente.
Adresse du projet: https://github.com/facebookresearch/ram/tree/main/projects/cocomix