L'IA générative connaît une croissance rapide, et ce référentiel sert de plate-forme complète pour les mises à jour sur la recherche sur l'IA générative, les documents d'entretien, les cahiers et bien plus encore !
Explorez les ressources suivantes :
Nous mettrons régulièrement à jour ce référentiel, alors gardez un œil sur les derniers ajouts !
Bon apprentissage !
*Mise à jour à la fin de chaque mois
Date | Titre | Abstrait | Sujets |
---|---|---|---|
31 mai 2024 | Les LLM atteignent des performances humaines adultes dans des tâches de théorie de l'esprit d'ordre supérieur | Cet article examine dans quelle mesure les grands modèles de langage (LLM) ont développé une théorie de l'esprit (ToM) d'ordre supérieur ; la capacité humaine à raisonner sur plusieurs états mentaux et émotionnels de manière récursive (par exemple, je pense que vous croyez qu'elle sait). Cet article s'appuie sur des travaux antérieurs en introduisant une suite de tests manuscrits – Théorie multi-ordres de l'esprit Q&A – et en l'utilisant pour comparer les performances de cinq LLM à un benchmark humain adulte nouvellement collecté. Nous constatons que GPT-4 et Flan-PaLM atteignent globalement des performances de niveau adulte ou proche du niveau adulte sur les tâches ToM, et que GPT-4 dépasse les performances des adultes sur les inférences de 6e ordre. Nos résultats suggèrent qu'il existe une interaction entre la taille du modèle et le réglage fin pour la réalisation des capacités ToM, et que les LLM les plus performants ont développé une capacité généralisée pour la ToM. Étant donné le rôle que joue la ToM d'ordre supérieur dans un large éventail de comportements humains coopératifs et compétitifs, ces résultats ont des implications significatives pour les applications LLM destinées aux utilisateurs. | Théorie de l'esprit |
30 mai 2024 | JINA CLIP : votre modèle CLIP est également votre outil de récupération de texte | Le préentraînement contrastif langage-image (CLIP) est largement utilisé pour entraîner des modèles afin d'aligner des images et des textes dans un espace d'intégration commun en les mappant sur des vecteurs de taille fixe. Ces modèles sont essentiels à la recherche d’informations multimodales et aux tâches associées. Cependant, les modèles CLIP sont généralement sous-performants dans les tâches de texte uniquement par rapport aux modèles de texte spécialisés. Cela crée des inefficacités pour les systèmes de recherche d'informations qui conservent des intégrations et des modèles séparés pour les tâches textuelles et multimodales. Nous proposons une nouvelle méthode de formation contrastive multitâche pour résoudre ce problème, que nous utilisons pour former le modèle jina-clip-v1 afin d'atteindre les performances de pointe sur les tâches de récupération texte-image et texte-texte. . | Modèles multimodaux |
30 mai 2024 | Parrot : service efficace d'applications basées sur LLM avec variable sémantique | L'essor des grands modèles de langage (LLM) a permis la création d'applications basées sur LLM (alias agents d'IA ou copilotes), un nouveau paradigme logiciel qui combine la force du LLM et des logiciels conventionnels. Diverses applications LLM de différents locataires pourraient concevoir des flux de travail complexes en utilisant plusieurs requêtes LLM pour accomplir une tâche. Cependant, ils doivent utiliser l'API au niveau des requêtes trop simplifiée fournie par les services publics LLM actuels, perdant ainsi des informations essentielles au niveau de l'application. Les services LLM publics doivent optimiser aveuglément les requêtes LLM individuelles, ce qui conduit à des performances de bout en bout sous-optimales des applications LLM. Cet article présente Parrot, un système de services LLM qui se concentre sur l'expérience de bout en bout des applications basées sur LLM. Parrot propose Semantic Variable, une abstraction unifiée pour exposer les connaissances au niveau de l'application aux services publics LLM. Une variable sémantique annote une variable d'entrée/sortie dans l'invite d'une requête et crée le pipeline de données lors de la connexion de plusieurs requêtes LLM, offrant ainsi un moyen naturel de programmer des applications LLM. L'exposition des variables sémantiques au service public LLM lui permet d'effectuer une analyse conventionnelle du flux de données pour découvrir la corrélation entre plusieurs requêtes LLM. Cette corrélation ouvre un tout nouvel espace d'optimisation pour les performances de bout en bout des applications basées sur LLM. Des évaluations approfondies démontrent que Parrot peut réaliser des améliorations d'un ordre de grandeur pour les cas d'utilisation populaires et pratiques des applications LLM. | Agents LLM |
30 mai 2024 | Perplexe face à la perplexité : élagage des données basé sur la perplexité avec de petits modèles de référence | Dans ce travail, nous étudions si les petits modèles de langage peuvent déterminer des sous-ensembles de haute qualité d'ensembles de données textuelles à grande échelle qui améliorent les performances de modèles de langage plus grands. Alors que les travaux existants ont montré que l'élagage basé sur la perplexité d'un modèle plus grand peut produire des données de haute qualité, nous étudions si des modèles plus petits peuvent être utilisés pour l'élagage basé sur la perplexité et comment l'élagage est affecté par la composition du domaine des données élaguées. Nous démontrons que pour plusieurs compositions d'ensembles de données, l'élagage basé sur la perplexité des données de pré-entraînement peut améliorer considérablement les performances des tâches en aval : l'élagage basé sur les perplexités calculées avec un modèle à 125 millions de paramètres améliore jusqu'à 2,04 les performances moyennes sur les tâches en aval d'un modèle à 3 milliards de paramètres. et permet une réduction jusqu'à 1,45 fois des étapes de pré-entraînement pour atteindre des performances de base correspondantes. De plus, nous démontrons qu'un tel élagage des données basé sur la perplexité génère également des gains de performances en aval dans les régimes surentraînés et limités en données. | Petits modèles de langage |
30 mai 2024 | GNN-RAG : récupération neuronale de graphiques pour le raisonnement sur un grand modèle de langage | Les Knowledge Graphs (KG) représentent des connaissances factuelles créées par l'homme sous la forme de triplets (tête, relation, queue), qui forment collectivement un graphique. La réponse aux questions sur les KG (KGQA) est la tâche de répondre à des questions naturelles en fondant le raisonnement sur les informations fournies par le KG. Les grands modèles linguistiques (LLM) sont les modèles de pointe pour les tâches d'assurance qualité en raison de leur remarquable capacité à comprendre le langage naturel. D'autre part, les réseaux de neurones graphiques (GNN) ont été largement utilisés pour KGQA car ils peuvent gérer les informations graphiques complexes stockées dans le KG. Dans ce travail, nous introduisons GNN-RAG, une nouvelle méthode permettant de combiner les capacités de compréhension du langage des LLM avec les capacités de raisonnement des GNN dans un style de génération augmentée par récupération (RAG). Premièrement, un GNN raisonne sur un sous-graphe KG dense pour récupérer les réponses candidates à une question donnée. Deuxièmement, les chemins les plus courts dans le KG qui relient les entités de question et les réponses candidates sont extraits pour représenter les chemins de raisonnement du KG. Les chemins extraits sont verbalisés et donnés en entrée pour le raisonnement LLM avec RAG. Dans notre framework GNN-RAG, le GNN agit comme un raisonneur de sous-graphes dense pour extraire des informations graphiques utiles, tandis que le LLM exploite sa capacité de traitement du langage naturel pour le KGQA ultime. De plus, nous développons une technique d'augmentation de récupération (RA) pour améliorer encore les performances de KGQA avec GNN-RAG. Les résultats expérimentaux montrent que GNN-RAG atteint des performances de pointe dans deux benchmarks KGQA largement utilisés (WebQSP et CWQ), surpassant ou correspondant aux performances de GPT-4 avec un LLM réglé en 7B. De plus, GNN-RAG excelle sur les questions multi-sauts et multi-entités, surpassant les approches concurrentes de 8,9 à 15,5 % à la réponse F1. Nous fournissons le code et les résultats KGQA sur https://github.com/cmavro/GNN-RAG. | RAG sur les graphiques de connaissances |
29 mai 2024 | Modèles linguistiques auto-explorants : élicitation active des préférences pour l'alignement en ligne | L'optimisation des préférences, en particulier grâce à l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF), a obtenu un succès significatif dans l'alignement des grands modèles linguistiques (LLM) pour adhérer aux intentions humaines. Contrairement à l'alignement hors ligne avec un ensemble de données fixe, la collecte de commentaires en ligne auprès des humains ou de l'IA sur les générations de modèles conduit généralement à des modèles de récompense plus performants et à des LLM mieux alignés grâce à un processus itératif. Cependant, parvenir à un modèle de récompense globalement précis nécessite une exploration systématique pour générer des réponses diverses qui couvrent le vaste espace du langage naturel. L'échantillonnage aléatoire à partir des LLM standard maximisant les récompenses est à lui seul insuffisant pour répondre à cette exigence. Pour résoudre ce problème, nous proposons un objectif à deux niveaux orienté avec optimisme vers des réponses potentiellement très rémunératrices pour explorer activement les régions hors distribution. En résolvant le problème de niveau interne avec la fonction de récompense reparamétrée, l'algorithme résultant, nommé SELM (Self-Exploring Language Models), élimine le besoin d'un RM séparé et met à jour de manière itérative le LLM avec un objectif simple. Par rapport à l’optimisation des préférences directes (DPO), l’objectif SELM réduit le recours aveugle aux extrapolations invisibles et améliore l’efficacité de l’exploration. Nos résultats expérimentaux démontrent que lorsqu'il est affiné sur les modèles Zephyr-7B-SFT et Llama-3-8B-Instruct, SELM augmente considérablement les performances d'instruction en suivant des références telles que MT-Bench et AlpacaEval 2.0, ainsi que diverses références académiques standard dans différents contextes. . Notre code et nos modèles sont disponibles sur https://github.com/shenao-zhang/SELM. | Alignement, optimisation des préférences |
28 mai 2024 | OpenRLHF : un framework RLHF facile à utiliser, évolutif et performant | Alors que les grands modèles de langage (LLM) continuent de se développer en mettant à l'échelle des lois, l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) a attiré une attention considérable en raison de ses performances exceptionnelles. Cependant, contrairement à la pré-formation ou à la mise au point d'un modèle unique, la mise à l'échelle de l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) pour la formation de grands modèles de langage pose des problèmes de coordination entre quatre modèles. Nous présentons OpenRLHF, un framework open source permettant une mise à l'échelle efficace du RLHF. Contrairement aux frameworks RLHF existants qui colocalisent quatre modèles sur les mêmes GPU, OpenRLHF repense la planification des modèles au-delà des paramètres 70B à l'aide de Ray, vLLM et DeepSpeed, en tirant parti d'une meilleure utilisation des ressources et de diverses approches de formation. S'intégrant parfaitement à Hugging Face, OpenRLHF fournit une solution prête à l'emploi avec des algorithmes et des scripts de lancement optimisés, ce qui garantit la convivialité. OpenRLHF implémente RLHF, DPO, l'échantillonnage par rejet et d'autres techniques d'alignement. Permettant le développement LLM de pointe, le code d'OpenRLHF est disponible sur https://github.com/OpenLLMAI/OpenRLHF. | RLHF, Boîte à outils |
28 mai 2024 | LAMA-NAS : RECHERCHE EFFICACE D'ARCHITECTURE NEURONALE POUR DE GRANDS MODÈLES DE LANGAGE | Les capacités des grands modèles de langage (LLM) modernes à résoudre le traitement du langage naturel, le raisonnement complexe, l'analyse des sentiments et d'autres tâches ont été extraordinaires, ce qui a conduit à leur adoption généralisée. Malheureusement, ces capacités s'accompagnent de coûts de mémoire et de calcul très élevés, ce qui exclut l'utilisation des LLM sur la plupart des plates-formes matérielles. Pour atténuer cela, nous proposons une méthode efficace pour trouver des architectures de réseau Pareto optimales basées sur LLaMA2-7B à l'aide d'un NAS one-shot. En particulier, nous affinons LLaMA2-7B une seule fois, puis appliquons une recherche basée sur un algorithme génétique pour trouver des architectures de réseau plus petites et moins complexes en termes de calcul. Nous montrons que, pour certaines tâches de référence standard, le réseau LLaMA2-7B pré-entraîné est inutilement vaste et complexe. Plus précisément, nous démontrons une réduction de 1,5 fois de la taille du modèle et une accélération de 1,3 fois du débit pour certaines tâches avec une baisse de précision négligeable. En plus de trouver des architectures de réseau plus petites et plus performantes, notre méthode le fait de manière plus efficace et efficiente que certaines techniques d'élagage ou de sparsification. Enfin, nous démontrons comment la quantification est complémentaire à notre méthode et que la taille et la complexité des réseaux que nous trouvons peuvent être encore réduites grâce à la quantification. Nous pensons que notre travail fournit un moyen de créer automatiquement des LLM pouvant être utilisés sur des plates-formes matérielles moins coûteuses et plus facilement disponibles. | Recherche d'architecture neuronale, réduction de la taille du modèle |
28 mai 2024 | N'oubliez pas de vous connecter ! Améliorer RAG avec le reclassement basé sur des graphiques | La génération augmentée par récupération (RAG) a considérablement amélioré les performances des réponses du modèle grand langage (LLM) en ancrant la génération avec le contexte des documents existants. Ces systèmes fonctionnent bien lorsque les documents sont clairement pertinents par rapport au contexte d'une question. Mais qu’en est-il lorsqu’un document contient des informations partielles ou des liens moins évidents avec le contexte ? Et comment raisonner sur les liens entre les documents ? Dans ce travail, nous cherchons à répondre à ces deux questions fondamentales sur la génération de RAG. Nous introduisons G-RAG, un reranker basé sur des réseaux de neurones graphiques (GNN) entre le récupérateur et le lecteur dans RAG. Notre méthode combine à la fois les connexions entre les documents et les informations sémantiques (via des graphiques de représentation abstraite de signification) pour fournir un classement contextuel pour RAG. G-RAG surpasse les approches de pointe tout en ayant une empreinte informatique réduite. De plus, nous évaluons les performances de PaLM 2 en tant que reranker et constatons qu'il est nettement inférieur à G-RAG. Ce résultat souligne l’importance du reclassement pour RAG même lors de l’utilisation de grands modèles linguistiques. | RAG pour le raisonnement |
27 mai 2024 | Meteor : Exploration de la justification basée sur Mamba pour les grands modèles de langage et de vision | Le développement rapide de grands modèles de langage et de vision (LLVM) a été motivé par les progrès dans le réglage des instructions visuelles. Récemment, les LLVM open source ont organisé des ensembles de données de réglage d'instructions visuelles de haute qualité et utilisé des encodeurs de vision supplémentaires ou plusieurs modèles de vision par ordinateur afin de réduire l'écart de performances avec de puissants LLVM à source fermée. Ces progrès sont attribués aux informations multiformes requises pour diverses capacités, notamment la compréhension fondamentale des images, la connaissance du monde réel sur les concepts de sens commun et non-objets (par exemple, les graphiques, les diagrammes, les symboles, les signes et les problèmes mathématiques) et l'apprentissage étape par étape. procédures en plusieurs étapes pour résoudre des questions complexes. En nous appuyant sur des informations à multiples facettes, nous présentons une nouvelle traversée de justifications efficace basée sur LLVM, basée sur Mamba (Meteor), qui exploite une justification à multiples facettes pour améliorer la compréhension et les capacités de réponse. Pour intégrer de longues justifications contenant des informations abondantes, nous utilisons l'architecture Mamba, capable de traiter des données séquentielles avec une complexité temporelle linéaire. Nous introduisons un nouveau concept de parcours de justification qui facilite une intégration efficace de la justification. Par la suite, le modèle de langage multimodal (MLM) de base est formé pour générer des réponses à l’aide d’une justification. Grâce à ces étapes, Meteor obtient des améliorations significatives des performances du langage de vision sur plusieurs critères d'évaluation nécessitant diverses capacités, sans augmenter la taille du modèle ni utiliser d'encodeurs de vision et de modèles de vision par ordinateur supplémentaires. Le code est disponible sur https://github.com/ByungKwanLee/Meteor. | Modèles spatiaux d'états, modèles multimodaux |
27 mai 2024 | Une introduction à la modélisation vision-langage | Suite à la récente popularité des grands modèles linguistiques (LLM), plusieurs tentatives ont été faites pour les étendre au domaine visuel. Qu'il s'agisse d'un assistant visuel capable de nous guider dans des environnements inconnus ou de modèles génératifs produisant des images en utilisant uniquement une description textuelle de haut niveau, les applications du modèle de langage de vision (VLM) auront un impact significatif sur notre relation avec la technologie. Cependant, de nombreux défis doivent être relevés pour améliorer la fiabilité de ces modèles. Même si le langage est discret, la vision évolue dans un espace dimensionnel beaucoup plus élevé dans lequel les concepts ne peuvent pas toujours être facilement discrétisés. Pour mieux comprendre les mécanismes derrière la mise en correspondance de la vision et du langage, nous présentons cette introduction aux VLM qui, nous l'espérons, aidera tous ceux qui souhaitent se lancer dans ce domaine. Tout d’abord, nous présentons ce que sont les VLM, comment ils fonctionnent et comment les former. Ensuite, nous présentons et discutons des approches pour évaluer les VLM. Bien que ce travail se concentre principalement sur le mappage des images avec le langage, nous discutons également de l'extension des VLM aux vidéos. | Modèles multimodaux, enquête |
27 mai 2024 | Modèles multimodaux de matriochka | Les grands modèles multimodaux (LMM) tels que LLaVA ont montré de solides performances en raisonnement visuo-linguistique. Ces modèles intègrent d’abord les images dans un grand nombre fixe de jetons visuels, puis les introduisent dans un grand modèle linguistique (LLM). Cependant, cette conception entraîne un nombre excessif de jetons pour des scénarios visuels denses tels que des images et des vidéos haute résolution, ce qui conduit à une grande inefficacité. Bien qu’il existe des méthodes d’élagage et de fusion de jetons, elles produisent une sortie d’une seule longueur pour chaque image et ne peuvent pas offrir de flexibilité dans le compromis entre densité d’informations et efficacité. Inspirés par le concept des poupées Matryoshka, nous proposons M3 : Matryoshka Multimodal Models, qui apprend à représenter le contenu visuel sous forme d'ensembles imbriqués de jetons visuels qui capturent des informations sur plusieurs granularités grossières à fines. Notre approche offre plusieurs avantages uniques pour les LMM : (1) On peut contrôler explicitement la granularité visuelle par instance de test pendant l'inférence, par exemple en ajustant le nombre de jetons utilisés pour représenter une image en fonction de la complexité ou de la simplicité anticipée du contenu ; (2) M3 fournit un cadre pour analyser la granularité nécessaire pour les ensembles de données existants, où nous constatons que les benchmarks de style COCO n'ont besoin que d'environ 9 jetons visuels pour obtenir une précision similaire à celle de l'utilisation des 576 jetons ; (3) Notre approche fournit une base pour explorer le meilleur compromis entre les performances et la longueur du jeton visuel au niveau de l'échantillon, où notre enquête révèle qu'il existe un écart important entre la limite supérieure de l'oracle et les représentations actuelles à échelle fixe. | Modèles multimodaux |
27 mai 2024 | Trans-LoRA : vers un réglage fin efficace des paramètres transférables sans données | Les adaptateurs de bas rang (LoRA) et leurs variantes sont des techniques de réglage fin efficaces (PEFT) populaires qui correspondent étroitement aux performances de réglage fin du modèle complet tout en ne nécessitant qu'un petit nombre de paramètres supplémentaires. Ces paramètres LoRA supplémentaires sont spécifiques au modèle de base en cours d'adaptation. Lorsque le modèle de base doit être obsolète et remplacé par un nouveau, tous les modules LoRA associés doivent être recyclés. Un tel recyclage nécessite l'accès aux données utilisées pour former la LoRA pour le modèle de base d'origine. Cela est particulièrement problématique pour les applications cloud commerciales où les modules LoRA et les modèles de base sont hébergés par des fournisseurs de services qui peuvent ne pas être autorisés à héberger des données de tâches client propriétaires. Pour relever ce défi, nous proposons Trans-LoRA, une nouvelle méthode de transfert sans perte et presque sans données de LoRA entre les modèles de base. Notre approche s'appuie sur des données synthétiques pour transférer les modules LoRA. À l'aide de grands modèles de langage, nous concevons un générateur de données synthétiques pour se rapprocher du processus de génération de données du sous-ensemble de données de tâches observé. La formation sur l'ensemble de données synthétiques résultant transfère les modules LoRA vers de nouveaux modèles. Nous montrons l’efficacité de notre approche en utilisant à la fois les familles modèles LLama et Gemma. Notre approche permet un transfert LoRA sans perte (principalement amélioré) entre les modèles au sein et entre différentes familles de modèles de base, et même entre différentes méthodes PEFT, sur une grande variété de tâches. | Méthodes PEFT, mise au point |
26 mai 2024 | Optimisation des préférences d'auto-jeu pour l'alignement du modèle linguistique | Les approches traditionnelles d'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) reposant sur des modèles paramétriques comme le modèle Bradley-Terry ne parviennent pas à capturer l'intransitivité et l'irrationalité des préférences humaines. Des progrès récents suggèrent que travailler directement avec les probabilités de préférence peut donner un reflet plus précis des préférences humaines, permettant un alignement plus flexible et plus précis du modèle de langage. Dans cet article, nous proposons une méthode d'alignement de modèles de langage basée sur le jeu autonome, qui traite le problème comme un jeu à deux joueurs à somme constante visant à identifier la politique d'équilibre de Nash. Notre approche, baptisée Self-Play Preference Optimization (SPPO), se rapproche de l’équilibre de Nash grâce à des mises à jour itératives des politiques et bénéficie d’une garantie de convergence théorique. Notre méthode peut effectivement augmenter la log-vraisemblance de la réponse choisie et diminuer celle de la réponse rejetée, ce qui ne peut pas être obtenu de manière triviale par une perte symétrique par paire telle que l'optimisation des préférences directes (DPO) et l'optimisation des préférences d'identité (IPO). Dans nos expériences, en utilisant seulement 60 000 invites (sans réponses) de l'ensemble de données UltraFeedback et sans aucune augmentation d'invite, en tirant parti d'un modèle de préférence pré-entraîné PairRM avec seulement 0,4 B de paramètres, SPPO peut obtenir un modèle en ajustant Mistral-7B- Instruct-v0.2 qui atteint le taux de victoire de pointe contrôlé en longueur de 28,53 % contre GPT-4-Turbo sur AlpacaEval 2.0. Il surpasse également le DPO (itératif) et l'introduction en bourse sur MT-Bench et l'Open LLM Leaderboard. Notamment, les solides performances de SPPO sont obtenues sans supervision externe supplémentaire (par exemple, réponses, préférences, etc.) de GPT-4 ou d'autres modèles de langage plus puissants. | Alignement, Optimisation |
23 mai 2024 | Toutes les fonctionnalités du modèle de langage ne sont pas linéaires | Des travaux récents ont proposé l'hypothèse de la représentation linéaire : selon laquelle les modèles de langage effectuent des calculs en manipulant des représentations unidimensionnelles de concepts (« caractéristiques ») dans l'espace d'activation. En revanche, nous explorons si certaines représentations de modèles de langage peuvent être intrinsèquement multidimensionnelles. Nous commençons par développer une définition rigoureuse des caractéristiques multidimensionnelles irréductibles selon qu'elles peuvent être décomposées en caractéristiques de dimension inférieure indépendantes ou non co-occurrentes. Motivés par ces définitions, nous concevons une méthode évolutive qui utilise des auto-encodeurs clairsemés pour trouver automatiquement des fonctionnalités multidimensionnelles dans GPT-2 et Mistral 7B. Ces caractéristiques découvertes automatiquement incluent des exemples remarquablement interprétables, par exemple des caractéristiques circulaires représentant les jours de la semaine et les mois de l'année. Nous identifions des tâches dans lesquelles ces cercles exacts sont utilisés pour résoudre des problèmes de calcul impliquant l'arithmétique modulaire en jours de la semaine et en mois de l'année. Enfin, nous prouvons que ces caractéristiques circulaires constituent bien l'unité fondamentale de calcul dans ces tâches avec des expériences d'intervention sur Mistral 7B et Llama 3 8B, et nous trouvons d'autres représentations circulaires en décomposant les états cachés de ces tâches en composants interprétables. | Analyse de représentation linéaire |
23 mai 2024 | AlignGPT : grands modèles de langage multimodaux avec capacité d'alignement adaptatif | Les grands modèles multimodaux de langage (MLLM) sont largement considérés comme cruciaux dans l’exploration de l’intelligence générale artificielle (AGI). Le cœur des MLLM réside dans leur capacité à réaliser un alignement intermodal. Pour atteindre cet objectif, les MLLM actuels suivent généralement un paradigme de formation en deux phases : la phase de pré-formation et la phase de mise au point des instructions. Malgré leur succès, il existe des lacunes dans la modélisation des capacités d'alignement au sein de ces modèles. Premièrement, pendant la phase de pré-entraînement, le modèle suppose généralement que toutes les paires image-texte sont uniformément alignées, mais en fait le degré d'alignement entre les différentes paires image-texte est incohérent. Deuxièmement, les instructions actuellement utilisées pour le réglage fin intègrent une variété de tâches, les instructions de différentes tâches nécessitent généralement différents niveaux de capacités d'alignement, mais les MLLM précédents négligent ces besoins d'alignement différenciés. Pour résoudre ces problèmes, nous proposons un nouveau modèle de langage multimodal à grande échelle, AlignGPT. Dans la phase de pré-formation, au lieu de traiter toutes les paires image-texte de la même manière, nous attribuons différents niveaux de capacités d'alignement aux différentes paires image-texte. Ensuite, lors de la phase de réglage des instructions, nous combinons de manière adaptative ces différents niveaux de capacités d’alignement pour répondre aux besoins d’alignement dynamique des différentes instructions. De nombreux résultats expérimentaux montrent que notre modèle atteint des performances compétitives sur 12 benchmarks. | Alignement, modèle multimodal |
23 mai 2024 | HippoRAG : Mémoire à long terme d'inspiration neurobiologique pour les grands modèles de langage | Afin de prospérer dans des environnements naturels hostiles et en constante évolution, les cerveaux des mammifères ont évolué pour stocker de grandes quantités de connaissances sur le monde et intégrer continuellement de nouvelles informations tout en évitant un oubli catastrophique. Malgré les réalisations impressionnantes, les grands modèles de langage (LLM), même avec la génération augmentée par récupération (RAG), ont encore du mal à intégrer de manière efficiente et efficace une grande quantité de nouvelles expériences après la pré-formation. Dans ce travail, nous introduisons HippoRAG, un nouveau cadre de récupération inspiré de la théorie de l'indexation hippocampique de la mémoire humaine à long terme pour permettre une intégration plus profonde et plus efficace des connaissances sur de nouvelles expériences. HippoRAG orchestre de manière synergique les LLM, les graphiques de connaissances et l'algorithme PageRank personnalisé pour imiter les différents rôles du néocortex et de l'hippocampe dans la mémoire humaine. Nous comparons HippoRAG aux méthodes RAG existantes sur la réponse aux questions multi-sauts et montrons que notre méthode surpasse remarquablement les méthodes de pointe, jusqu'à 20 %. La récupération en une seule étape avec HippoRAG permet d'obtenir des performances comparables ou meilleures que la récupération itérative comme IRCoT tout en étant 10 à 30 fois moins chère et 6 à 13 fois plus rapide, et l'intégration d'HippoRAG dans IRCoT apporte des gains substantiels supplémentaires. Enfin, nous montrons que notre méthode peut aborder de nouveaux types de scénarios hors de portée des méthodes existantes. | Optimisation du RAG |
21 mai 2024 | OmniGlue : correspondance de fonctionnalités généralisable avec les conseils du modèle de fondation | Le domaine de la mise en correspondance d'images a été témoin de l'émergence continue de nouvelles techniques de mise en correspondance de caractéristiques apprenables, avec des performances sans cesse améliorées par rapport aux références conventionnelles. Cependant, notre enquête montre que malgré ces gains, leur potentiel d’applications réelles est limité par leurs capacités limitées de généralisation à de nouveaux domaines d’images. Dans cet article, nous présentons OmniGlue, le premier outil de correspondance d'images apprenable conçu avec la généralisation comme principe fondamental. OmniGlue exploite les vastes connaissances d'un modèle de base de vision pour guider le processus de mise en correspondance des fonctionnalités, stimulant ainsi la généralisation à des domaines non vus au moment de la formation. De plus, nous proposons un nouveau mécanisme d'attention guidée par la position des points clés qui démêle les informations spatiales et d'apparence, conduisant à des descripteurs de correspondance améliorés. Nous effectuons des expériences complètes sur une suite de 7 ensembles de données avec des domaines d'images variés, y compris des images au niveau de la scène, centrées sur l'objet et aériennes. Les nouveaux composants d'OmniGlue conduisent à des gains relatifs sur des domaines invisibles de 20,9 % par rapport à un modèle de référence directement comparable, tout en surpassant également la récente méthode LightGlue de 9,5 % relativement. Le code et le modèle peuvent être trouvés sur https : //hwjiang1510.github.io/OmniGlue. | Modèles multimodaux |
20 mai 2024 | MoRA : mise à jour de haut rang pour un réglage fin efficace des paramètres | L'adaptation de bas rang (LoRA) est une méthode de réglage fin (PEFT) populaire pour les grands modèles de langage (LLM). Dans cet article, nous analysons l'impact de la mise à jour de bas rang, telle qu'implémentée dans LoRA. Nos résultats suggèrent que le mécanisme de mise à jour de bas rang peut limiter la capacité des LLM à apprendre et à mémoriser efficacement de nouvelles connaissances. Inspirés par cette observation, nous proposons une nouvelle méthode appelée MoRA, qui utilise une matrice carrée pour obtenir une mise à jour de haut rang tout en conservant le même nombre de paramètres pouvant être entraînés. Pour y parvenir, nous introduisons les opérateurs non paramétriques correspondants pour réduire la dimension d'entrée et augmenter la dimension de sortie de la matrice carrée. De plus, ces opérateurs garantissent que le poids peut être réintégré dans les LLM, ce qui permet à notre méthode d'être déployée comme LoRA. Nous effectuons une évaluation complète de notre méthode à travers cinq tâches : réglage des instructions, raisonnement mathématique, pré-entraînement continu, mémoire et pré-entraînement. Notre méthode surpasse LoRA sur les tâches gourmandes en mémoire et atteint des performances comparables sur d'autres tâches. Notre code sera disponible sur https://github.com/kongds/MoRA. | Approches PEFT, mise au point |
19 mai 2024 | Votre transformateur est secrètement linéaire | Cet article révèle une nouvelle caractéristique linéaire exclusive aux décodeurs à transformateur, notamment des modèles tels que GPT, LLaMA, OPT, BLOOM et autres. Nous analysons les transformations d'intégration entre les couches séquentielles, révélant une relation linéaire presque parfaite (score de similarité Procruste de 0,99). Cependant, la linéarité diminue lorsque le composant résiduel est supprimé en raison d'une norme de sortie constamment faible de la couche de transformateur. Nos expériences montrent que la suppression ou l'approximation linéaire de certains des blocs de transformateurs les plus linéaires n'affecte pas de manière significative la perte ou les performances du modèle. De plus, dans nos expériences de pré-entraînement sur des modèles plus petits, nous introduisons une régularisation basée sur la similarité cosinus, visant à réduire la linéarité des couches. Cette régularisation améliore les mesures de performances sur des benchmarks tels que Tiny Stories et SuperGLUE et diminue également avec succès la linéarité des modèles. Cette étude remet en question la compréhension actuelle des architectures de transformateurs, suggérant que leur fonctionnement pourrait être plus linéaire qu'on ne le pensait auparavant.1 | Analyse du transformateur |
18 mai 2024 | Vers des LLM modulaires en construisant et en réutilisant une bibliothèque de LoRA | Le nombre croissant d'adaptations efficaces en termes de paramètres d'un modèle de langage étendu (LLM) de base nécessite d'étudier si nous pouvons réutiliser de tels adaptateurs formés pour améliorer les performances de nouvelles tâches. Nous étudions comment construire au mieux une bibliothèque d'adaptateurs à partir de données multitâches et concevons des techniques pour la généralisation de tâches à tir nul et supervisées via le routage dans une telle bibliothèque. Nous comparons les approches existantes pour créer cette bibliothèque et introduisons le clustering basé sur un modèle, MBC, une méthode qui regroupe les tâches en fonction de la similarité de leurs paramètres d'adaptateur, optimisant indirectement le transfert à travers l'ensemble de données multitâches. Pour réutiliser la bibliothèque, nous présentons un nouveau mécanisme de routage sans tir, Arrow, qui permet une sélection dynamique des adaptateurs les plus pertinents pour les nouvelles entrées sans avoir besoin de recyclage. Nous expérimentons plusieurs LLM, tels que Phi-2 et Mistral, sur un large éventail de tâches retenues, vérifiant que les adaptateurs basés sur MBC et le routage Arrow conduisent à une généralisation supérieure à de nouvelles tâches. Nous progressons vers la création de LLM modulaires et adaptables qui peuvent égaler ou surpasser la formation conjointe traditionnelle. | Approches PEFT, mise au point, boîte à outils |
16 mai 2024 | Chameleon : modèles de fondation à fusion précoce à modes mixtes | Nous présentons Chameleon, une famille de modèles modaux mixtes basés sur des jetons de fusion précoce, capables de comprendre et de générer des images et du texte dans n'importe quelle séquence arbitraire. Nous décrivons une approche de formation stable dès le départ, une recette d'alignement et un paramétrage architectural adapté au contexte de fusion précoce, basé sur des jetons et modal mixte. Les modèles sont évalués sur une gamme complète de tâches, notamment la réponse visuelle aux questions, le sous-titrage d'images, la génération de texte, la génération d'images et la génération modale mixte de forme longue. Chameleon démontre des capacités larges et générales, y compris des performances de pointe dans les tâches de sous-titrage d'images, surpasse Llama-2 dans les tâches de texte uniquement tout en étant compétitif avec des modèles tels que Mixtral 8x7B et Gemini-Pro, et exécute des images non triviales. génération, le tout dans un seul modèle. Il égale ou dépasse également les performances de modèles beaucoup plus grands, notamment Gemini Pro et GPT-4V, selon des jugements humains sur une nouvelle évaluation de génération modale mixte de longue durée, dans laquelle l'invite ou les sorties contiennent des séquences mixtes d'images et de texte. . Chameleon marque une avancée significative dans une modélisation unifiée de documents entièrement multimodaux. | Modèles multimodaux, modèle de base |
16 mai 2024 | Apprentissage dans le contexte en plusieurs parties dans les modèles de fondation multimodaux | Les modèles de grands langues sont bien connus pour être efficaces à quelques coups d'apprentissage dans le contexte (ICL). Les progrès récents dans les modèles de fondations multimodaux ont permis des fenêtres de contexte sans précédent, présentant une opportunité d'explorer leur capacité à effectuer ICL avec de nombreux autres exemples démontrant. Dans ce travail, nous évaluons les performances des modèles de fondations multimodaux qui passent de quelques coups à ICL à plusieurs coups. Nous comptons GPT-4O et Gemini 1.5 Pro sur 10 ensembles de données couvrant plusieurs domaines (imagerie naturelle, imagerie médicale, télédétection et imagerie moléculaire) et tâches (classification multi-classes, multi-étiquettes et à grain fin). Nous observons que l'ICL à plusieurs coups, y compris jusqu'à près de 2 000 exemples de démonstration multimodaux, conduit à des améliorations substantielles par rapport à une ICL à quelques (<100 exemples) dans tous les ensembles de données. De plus, les performances Gemini 1.5 Pro continue d'améliorer le log-linéaire jusqu'au nombre maximum d'exemples testés sur de nombreux ensembles de données. Compte tenu des coûts d'inférence élevés associés aux longues invites requises pour ICL à plusieurs coups, nous explorons également l'impact des requêtes multiples par lots dans un seul appel API. Nous montrons que le lots jusqu'à 50 requêtes peut entraîner des améliorations de performances sous des tirs zéro et de nombreux ICL, avec des gains substantiels dans le paramètre zéro sur plusieurs ensembles de données, tout en réduisant considérablement le coût et la latence par requête. Enfin, nous mesurons l'efficacité des données ICL des modèles, ou la vitesse à laquelle les modèles apprennent de plus en plus d'exemples. Nous constatons que bien que GPT-4O et Gemini 1.5 Pro atteignent des performances zéro similaires à travers les ensembles de données, Gemini 1.5 Pro présente une efficacité de données ICL plus élevée que GPT-4O sur la plupart des ensembles de données. Nos résultats suggèrent que ICL à plusieurs coups pourrait permettre aux utilisateurs d'adapter efficacement des modèles de fondation multimodaux à de nouvelles applications et domaines. Notre base de code est accessible au public sur https://github.com/stanfordmlgroup/manyicl. | ICL, modèles multimodaux |
15 mai 2024 | Lora apprend moins et oublie moins | L'adaptation de faible rang (LORA) est une méthode de finetuning économe en paramètres largement utilisée pour les modèles de grands langues. Lora économise de la mémoire en formant uniquement les perturbations de bas rang vers des matrices de poids sélectionnées. Dans ce travail, nous comparons les performances de LORA et de la finetun complète sur deux domaines cibles, la programmation et les mathématiques. Nous considérons à la fois les régimes de données d'instructions de l'instruction (≈100k de réponse rapide) et les régimes de données de pré-formation de pré-formation (≈10b non structurés). Nos résultats montrent que, dans la plupart des contextes, Lora sous-performe considérablement la finetune complète. Néanmoins, Lora présente une forme de régularisation souhaitable: il maintient mieux les performances du modèle de base sur les tâches en dehors du domaine cible. Nous montrons que Lora fournit une régularisation plus forte par rapport aux techniques communes telles que la désintégration et l'abandon de poids; Il aide également à maintenir des générations plus diverses. Nous montrons que la finalité complète apprend des perturbations avec un rang de 10 à 100 fois plus élevé que les configurations LORA typiques, expliquant éventuellement certaines des lacunes signalées. Nous concluons en proposant les meilleures pratiques pour les finetun avec Lora. | Approches PEFT, affinage |
14 mai 2024 | Comprendre l'écart de performance entre les algorithmes d'alignement en ligne et hors ligne | Le renforcement de l'apprentissage de la rétroaction humaine (RLHF) est le cadre canonique de l'alignement du modèle de langue importante. Cependant, la popularité croissante dans les algorithmes d'alignement hors ligne remet en question la nécessité d'un échantillonnage sur la politique dans le RLHF. Dans le contexte de la sur-optimisation de la récompense, nous commençons par un ensemble d'ouverture d'expériences qui démontrent l'avantage clair des méthodes en ligne sur les méthodes hors ligne. Cela nous incite à étudier les causes de l'écart de performance à travers une série d'ablations expérimentales soigneusement conçues. Nous montrons empiriquement que les hypothèses telles que la couverture des données hors ligne et la qualité des données ne peuvent pas expliquer de manière convaincante la différence de performance. Nous constatons également que bien que les algorithmes hors ligne forment la politique de la classification par paire, elle est pire en générations; En attendant, les politiques formées par les algorithmes en ligne sont bonnes en générations tout en étant pire dans la classification par paire. Cela fait allusion à une interaction unique entre les capacités discriminantes et génératives, qui est grandement affectée par le processus d'échantillonnage. Enfin, nous observons que l'écart de performance persiste pour les fonctions de perte contrastives et non contrastives et ne semble pas être abordé en augmentant simplement les réseaux de politique. Dans l'ensemble, notre étude met en lumière le rôle central de l'échantillonnage sur la politique dans l'alignement de l'IA et fait allusion à certains défis fondamentaux des algorithmes d'alignement hors ligne. | Alignement |
13 mai 2024 | RLHF Workflow: de la modélisation des récompenses à RLHF en ligne | Nous présentons le flux de travail de l'apprentissage itératif itératif en ligne de la rétroaction humaine (RLHF) dans ce rapport technique, qui est largement signalé pour surpasser son homologue hors ligne par une grande marge dans la récente littérature de modèle de grande langue (LLM). Cependant, les projets RLHF open source existants sont encore largement confinés au paramètre d'apprentissage hors ligne. Dans ce rapport technique, nous visons à combler cette lacune et à fournir une recette détaillée facile à reproduire pour le RLHF itératif en ligne. En particulier, comme la rétroaction humaine en ligne est généralement irréalisable pour les communautés open source avec des ressources limitées, nous commençons par construire des modèles de préférence en utilisant un ensemble diversifié d'ensembles de données open source et utilisons le modèle de préférence proxy construit pour approximer la rétroaction humaine. Ensuite, nous discutons des idées théoriques et des principes algorithmiques derrière le RLHF itératif en ligne, suivi d'une implémentation pratique détaillée. Notre LLM formé, SFR-iterative-dpo-lelama-3-8b-R, obtient des performances impressionnantes sur des références de chatbot LLM, y compris Alpacaeval-2, Arena-Hard et Mt-Bench, ainsi que d'autres références académiques telles que Humaneval et Troimfulqa. Nous avons montré que le réglage fin supervisé (SFT) et le RLHF itératif peuvent obtenir des performances de pointe avec des ensembles de données entièrement open source. De plus, nous avons créé nos modèles, nos ensembles de données organisés et nos guides de code étape par étape complets accessibles au public. Veuillez vous référer à https://github.com/rlhflow/rlhf-reward-modeling et https://github.com/rlhflow/online-rlhf pour des informations plus détaillées. | Optimisation des préférences, RLHF |
2 mai 2024 | Prométhée 2: un modèle de langue open source spécialisé dans l'évaluation d'autres modèles de langue | Les LMS propriétaires tels que GPT-4 sont souvent utilisés pour évaluer la qualité des réponses de divers LMS. Cependant, les préoccupations telles que la transparence, la contrôlabilité et l'abordabilité motivent fortement le développement de LMS open source spécialisés dans les évaluations. D'un autre côté, les LMS de l'évaluateur ouvert existant présentent des lacunes critiques: 1) Ils émettent des scores qui divergent considérablement de ceux qui sont attribués par l'homme, et 2) ils n'ont pas la flexibilité pour effectuer à la fois une évaluation directe et un classement par paire, les deux formes d'évaluation les plus répandues . De plus, ils ne possèdent pas la capacité d'évaluer en fonction des critères d'évaluation personnalisés, en se concentrant plutôt sur des attributs généraux tels que l'utilité et l'inrandie. Pour résoudre ces problèmes, nous introduisons Prometheus 2, un évaluateur plus puissant LM que son prédécesseur qui reflète étroitement les jugements humains et GPT-4. De plus, il est capable de traiter à la fois des formats d'évaluation directs et de classement par paire regroupés avec un critère d'évaluation défini par l'utilisateur. Sur quatre repères d'évaluation directe et quatre repères de classement par paire, Prometheus 2 marque la corrélation et l'accord le plus élevé avec les humains et les juges de LM propriétaires parmi tous les LMS de l'évaluateur ouvert testés. Nos modèles, code et données sont tous accessibles au public 1. | Évaluation, agents |
2 mai 2024 | WildChat: Journaux d'interaction 1M Chatgpt dans la nature | Les chatbots tels que GPT-4 et Chatgpt servent désormais des millions d'utilisateurs. Malgré leur utilisation généralisée, il reste un manque d'ensembles de données publics montrant comment ces outils sont utilisés par une population d'utilisateurs dans la pratique. Pour combler cet écart, nous avons offert un accès gratuit à Chatgpt pour les utilisateurs en ligne en échange de leur opt-in affirmatif et consensuel pour collecter de manière anonyme leurs transcriptions de chat et demander des en-têtes. De cela, nous avons compilé WildChat, un corpus de 1 million de conversations de chatteaux utilisateur, qui se compose de plus de 2,5 millions de virages d'interaction. Nous comparons WildChat avec d'autres ensembles de données d'interaction populaires du chatter-chat, et constatons que notre ensemble de données offre les invites d'utilisateurs les plus diverses, contient le plus grand nombre de langues et présente la plus riche variété de cas d'utilisation potentiellement toxiques pour les chercheurs à étudier. En plus des transcriptions de chat horodomagies, nous enrichissons l'ensemble de données avec des données démographiques, y compris les adresses IP d'État, de pays et hachée, aux côtés des en-têtes de demande. Cette augmentation permet une analyse plus détaillée des comportements des utilisateurs dans différentes régions géographiques et dimensions temporelles. Enfin, comme il capture un large éventail de cas d'utilisation, nous démontons l'utilité potentielle de l'ensemble de données dans les modèles de suivi des instructions à réglage fin. Wildchat est publié sur https://wildchat.allen.ai sous les licences d'impact AI21. | Benchmark, évaluation |
2 mai 2024 | StoryDiffusion: auto-agence de soi cohérente pour la génération d'images et de vidéo à longue portée | Pour les récents modèles génératifs basés sur la diffusion, en maintenant un contenu cohérent dans une série d'images générées, en particulier celles contenant des sujets et des détails complexes, présente un défi important. Dans cet article, nous proposons une nouvelle façon de calcul de l'administration d'auto-agencement, appelée auto-agence d'auto-agence cohérente, qui augmente considérablement la cohérence entre les images générées et augmente les modèles de texte à image à diffusion pré-étendus prévalents de manière à zéro. Pour étendre notre méthode à la génération de vidéos à longue portée, nous introduisons en outre un nouveau module de prédiction de mouvement temporal spatial sémantique, nommé prédicteur de mouvement sémantique. Il est formé pour estimer les conditions de mouvement entre deux images fournies dans les espaces sémantiques. Ce module convertit la séquence générée d'images en vidéos avec des transitions en douceur et des sujets cohérents qui sont nettement plus stables que les modules basés uniquement sur des espaces latents, en particulier dans le contexte d'une longue génération vidéo. En fusionnant ces deux nouveaux composants, notre cadre, appelé StoryDiffusion, peut décrire une histoire basée sur le texte avec des images ou des vidéos cohérentes englobant une riche variété de contenu. La diffusion de storys proposée comprend des explorations pionnières dans la génération d'histoires visuelles avec la présentation des images et des vidéos, ce qui, nous l'espérons, pourrait inspirer davantage de recherches de l'aspect des modifications architecturales. | Modèles multimodaux, diffusion |
2 mai 2024 | Flame: alignement conscient de la factualité pour les modèles de grande langue | L'alignement est une procédure standard pour affiner les modèles de grand langage pré-formés (LLM) pour suivre les instructions en langage naturel et servir d'assistants d'IA utiles. Nous avons cependant observé que le processus d'alignement conventionnel ne parvient pas à améliorer la précision factuelle des LLM et conduit souvent à la génération de plus faux faits (c.-à-d. Hallucination). Dans cet article, nous étudions comment rendre le processus d'alignement LLM plus factuel, en identifiant d'abord les facteurs qui conduisent à une hallucination dans les deux étapes d'alignement: réglage fin supervisé (SFT) et apprentissage par renforcement (RL). En particulier, nous constatons que la formation du LLM sur de nouvelles connaissances ou des textes inconnus peut encourager l'hallucination. Cela rend SFT moins factuel car il s'entraîne sur des données marquées humaines qui peuvent être nouvelles pour le LLM. De plus, les fonctions de récompense utilisées dans la RL standard peuvent également encourager l'hallucination, car elle guide le LLM à fournir des réponses plus utiles sur un ensemble diversifié d'instructions, préférant souvent des réponses plus longues et plus détaillées. Sur la base de ces observations, nous proposons un alignement (flamme) conscient de factualité, composé de SFT et de RL conscients de factualité et de factualité grâce à une optimisation directe des préférences. Des expériences montrent que notre alignement proposé par la factualité guide LLMS pour produire plus de réponses factuelles tout en maintenant la capacité de suivi des instructions | Alignement, factualité |
2 mai 2024 | NEMO-ALIGNER: boîte à outils évolutive pour un alignement de modèle efficace | Il est essentiel d'aligner des modèles de gros langues (LLM) avec des valeurs et des préférences humaines pour les rendre utiles et sûrs. Cependant, la construction d'outils efficaces pour effectuer l'alignement peut être difficile, en particulier pour les LLM les plus importantes et les plus compétentes qui contiennent souvent des dizaines ou des centaines de milliards de paramètres. Nous créons Nemo-Aligneur, une boîte à outils pour l'alignement du modèle qui peut efficacement évoluer pour utiliser des centaines de GPU pour la formation. Nemo-Adigneur est livré avec des implémentations hautement optimisées et évolutives pour les principaux paradigmes d'alignement du modèle tels que: apprentissage par renforcement de la rétroaction humaine (RLHF), optimisation des préférences directes (DPO), Steerlm et Auto-play-tuning (spin). De plus, notre boîte à outils prend en charge l'exécution de la plupart des techniques d'alignement dans un paramètre de réglage fin (PEFT) de paramètre. Nemo-Adigneur est conçu pour l'extensibilité, permettant un soutien à d'autres techniques d'alignement avec un minimum d'effort. Il est open-open avec la licence Apache 2.0 et nous invitons les contributions communautaires à https://github.com/nvidia/nemo-aligner. | Alignement, boîte à outils |
1er mai 2024 | La taille du lot de modification plus grande est-elle toujours meilleure? - Une étude empirique sur l'édition de modèles avec LLAMA-3 | Cette étude présente une analyse d'édition de modèle ciblée axée sur le dernier modèle de grande langue, LLAMA-3. Nous explorons l'efficacité des techniques d'édition de modèles populaires - Rome, Memmit et Emmet, qui sont conçues pour des interventions de couche précises. Nous identifions les couches les plus efficaces pour les modifications ciblées grâce à une évaluation qui englobe jusqu'à 4096 modifications à travers trois stratégies distinctes: l'édition séquentielle, l'édition par lots et une approche hybride que nous appelons comme édition de lots séquentiels. Nos résultats indiquent que l'augmentation des tailles de lot de modification peut dégrader les performances du modèle plus significativement que l'utilisation de lots d'édition plus petits séquentiellement pour un nombre égal de modifications. Avec cela, nous soutenons que l'édition de modèle séquentiel est un composant important pour la mise à l'échelle des méthodes d'édition de modèle et que les recherches futures devraient se concentrer sur les méthodes qui combinent l'édition lot et séquentielle. Cette observation suggère une limitation potentielle dans les méthodes d'édition de modèle actuelles qui poussent vers des tailles de lots d'édition plus importantes, et nous espérons qu'elle ouvre ses études pour l'optimisation des tailles de lots et des performances d'édition du modèle. | Modification du modèle |
1er mai 2024 | Lora Land: 310 LLMS affinés qui rivalisent avec le GPT-4, un rapport technique | L'adaptation à faible rang (LORA) est devenue l'une des méthodes les plus adoptées pour le réglage fin efficace des paramètres (PEFT) de modèles de grande langue (LLM). LORA réduit le nombre de paramètres formables et d'utilisation de la mémoire tout en réalisant des performances comparables à un réglage fin complet. Nous visons à évaluer la viabilité de la formation et du service de LLMS affinés avec LORA dans des applications réelles. Tout d'abord, nous mesurons la qualité des LLMS affinés avec des adaptateurs de rang à bas rang quantifié sur 10 modèles de base et 31 tâches pour un total de 310 modèles. Nous constatons que les modèles à réglage fin de LORA 4 bits surpassent les modèles de base de 34 points et GPT-4 par 10 points en moyenne. Deuxièmement, nous étudions les modèles de base les plus efficaces pour le réglage fin et évaluons les capacités corrélatives et prédictives de l'heuristique de la complexité des tâches dans la prévision des résultats de la réglage fin. Enfin, nous évaluons les capacités de latence et de concurrence de Lorax, un serveur d'inférence multi-lora open-source qui facilite le déploiement de plusieurs modèles à réglage fin LORA sur un seul GPU en utilisant des poids de modèle de base partagés et un chargement dynamique de l'adaptateur. Lorax Powers Lora Land, une application Web qui héberge 25 LORA LORA TUNED MISTRAL-7B LLMS sur un seul GPU NVIDIA A100 avec une mémoire de 80 Go. Lora Land met en évidence la qualité et la rentabilité de l'utilisation de plusieurs LLM spécialisés sur un seul LLM à usage général. | Approches PEFT, affinage |
Rejoignez plus de 1000 étudiants dans cette aventure de 10 semaines alors que nous nous plongeons dans l'application des LLM dans une variété de cas d'utilisation
? ️ * Semaine 1 [15 janvier 2024] *: Introduction pratique aux LLMS
? ️ * Semaine 2 [22 janvier 2024] *: Incitation et ingénierie rapide
? ️ * Semaine 3 [29 janvier 2024] *: LLM Fine-tuning
? ️ * Semaine 4 [5 février 2024] *: RAG (Génération auprès de la récupération)
? ️ * Semaine 5 [12 février 2024] *: Outils pour construire des applications LLM
? ️ * Semaine 6 [19 février 2024] *: Techniques d'évaluation
? ️ * Semaine 7 [26 février 2024] *: Construire votre propre application LLM
? ️ * Semaine 8 [4 mars 2024] *: fonctionnalités avancées et déploiement
? ️ * Semaine 9 [11 mars 2024] *: Défis avec LLMS
? ️ * Semaine 10 [18 mars 2024] *: Tendances de recherche émergentes
? ️ * Semaine 11 * Bonus * [25 mars 2024] *: Fondations
Modèles de grande langue par Eth Zurich
Comprendre les grands modèles de langue par Princeton
Cours des transformateurs en étreignant
Cours NLP en étreignant
CS324 - Modèles de grande langue par Stanford
AI générative avec de grands modèles de langue par Coursera
Introduction à une AI générative par Coursera
Fondamentaux génératifs de l'IA par Google Cloud
Introduction aux grands modèles de langue par Google Cloud
Introduction à une AI générative par Google Cloud
Concepts généatifs de l'IA par Datacamp (Daniel Tedesco Data Lead @ Google)
1 heure Introduction à LLM (Modèles de grande langue) par Weclouddata
Modèles de fondation LLM à partir de zéro | Amorce par databricks
AI génératif expliqué par Nvidia
Modèles de transformateur et modèle Bert par Google Cloud
Plan d'apprentissage génératif de l'IA pour les décideurs par AWS
Introduction à l'IA responsable par Google Cloud
Fondamentaux de l'IA générative par Microsoft Azure
AI générative pour les débutants par Microsoft
Chatgpt pour les débutants: les cas d'utilisation ultime pour tout le monde par Udemy
[Talk 1hr] Intro aux grands modèles de langue par Andrej Karpathy
Chatgpt pour tout le monde en apprenant l'incitation
Modèles de grande langue (LLMS) (en anglais) par Kshitiz Verma (JK Lakshmipat University, Jaipur, Inde)
LLMOPS: Construire des applications du monde réel avec des modèles de grande langue par udacity
Bootcamp LLM Full Stack par FSDL
AI générative pour les débutants par Microsoft
Modèles de grande langue: application par production par databricks
Fondations génératives de l'IA par AWS
Introduction au cours générateur de la communauté AI par Ineuron
Université LLM par Cohere
LLM Learning Lab par Lightning AI
Langchain pour le développement des applications LLM par Deeplearning.ai
Llmops par Deeplearning.ai
Test automatisé pour LLMOPS par DeepLearning.ai
Bâtiment des applications d'interstance généative utilisant le fondement Amazon par AWS
Servant efficacement les LLM par Deeplearning.ai
Systèmes de construction avec l'API Chatgpt par DeepLearning.ai
Applications LLM sans serveur avec Amazon Bedrock par DeepLearning.ai
Construire des applications avec des bases de données vectorielles par DeepLearning.ai
Test automatisé pour LLMOPS par DeepLearning.ai
Llmops par Deeplearning.ai
Créer des applications LLM avec Langchain.js par Deeplearning.ai
Récupération avancée pour l'IA avec chroma par Deeplearning.ai
Opérationnalisation LLMS sur Azure par Coursera
Cours complet de l'AI génératif - Gemini Pro, Openai, Llama, Langchain, Pinecone, Vector Databases et plus par freecodecamp.org
TRAINEMENT ET LETTRACTION DU TUNIN
Bases de données Langchain & Vector en production par ActiveLoop
Renforcement d'apprentissage de la rétroaction humaine par Deeplearning.ai
Construire des applications avec des bases de données vectorielles par DeepLearning.ai
Finetuning de grands modèles de langue par Deeplearning.ai
Langchain: discutez avec vos données par DeepLearning.ai
Systèmes de construction avec l'API Chatgpt par DeepLearning.ai
Ingénierie rapide avec Llama 2 par Deeplearning.ai
Construire des applications avec des bases de données vectorielles par DeepLearning.ai
Chatgpt Inside Engineering pour les développeurs par DeepLearning.ai
Advanced Rag Orchestration Series par Llamaindex
Spécialisation d'ingénierie rapide par Coursera
Augmentez votre LLM en utilisant la génération augmentée de récupération par Nvidia
Graphiques de connaissances pour le chiffon par Deeplearning.ai
Modèles open source avec un visage étreint par Deeplearning.ai
Bases de données vectorielles: des intégres aux applications par Deeplearning.ai
Comprendre et appliquer des intérêts de texte par Deeplearning.ai
Applications Web JavaScript Rag avec Llamaindex par Deeplearning.ai
Fondamentaux de la quantification avec un visage étreint par Deeplearning.ai
Prétraitement des données non structurées pour les applications LLM par DeepLearning.ai
Récupération Génération augmentée pour la production avec Langchain & Llamaindex par ActiveLoop
Quantification en profondeur par Deeplearning.ai
Si vous souhaitez ajouter au référentiel ou trouver des problèmes, n'hésitez pas à augmenter un RP et à assurer un placement correct dans la section ou la catégorie concernée.
Pour citer ce guide, utilisez le format ci-dessous:
@article{areganti_generative_ai_guide,
author = {Reganti, Aishwarya Naresh},
journal = {https://github.com/aishwaryanr/awesome-generative-ai-resources},
month = {01},
title = {{Generative AI Guide}},
year = {2024}
}
[Licence du MIT]