L'IA générative connaît une croissance rapide, et ce référentiel sert de plate-forme complète pour les mises à jour sur la recherche sur l'IA générative, les documents d'entretien, les cahiers et bien plus encore !
Explorez les ressources suivantes :
Nous mettrons régulièrement à jour ce référentiel, alors gardez un œil sur les derniers ajouts !
Bon apprentissage !
*Mise à jour à la fin de chaque mois
Date | Titre | Abstrait |
---|---|---|
30 septembre 2024 | MM1.5 : Méthodes, analyses et informations issues de la mise au point multimodale du LLM | Nous présentons MM1.5, une nouvelle famille de modèles multimodaux de langage étendu (MLLM) conçus pour améliorer les capacités de compréhension d'images riches en texte, de référence et d'ancrage visuels et de raisonnement multi-images. S'appuyant sur l'architecture MM1, MM1.5 adopte une approche centrée sur les données pour la formation des modèles, explorant systématiquement l'impact de divers mélanges de données sur l'ensemble du cycle de vie de la formation des modèles. Cela comprend des données OCR de haute qualité et des légendes synthétiques pour une pré-formation continue, ainsi qu'un mélange optimisé de données d'instructions visuelles et de réglage pour un réglage précis supervisé. Nos modèles vont de paramètres 1B à 30B, englobant à la fois des variantes denses et mixtes d'experts (MoE), et démontrent qu'une conservation minutieuse des données et des stratégies de formation peuvent produire de solides performances même à petite échelle (1B et 3B). De plus, nous introduisons deux variantes spécialisées : MM1.5-Video, conçue pour la compréhension vidéo, et MM1.5-UI, conçue pour la compréhension de l'interface utilisateur mobile. Grâce à des études empiriques approfondies et à des ablations, nous fournissons des informations détaillées sur les processus de formation et les décisions qui éclairent nos conceptions finales, offrant ainsi des conseils précieux pour les recherches futures sur le développement de MLLM. |
26 septembre 2024 | MIO : un modèle de base sur les jetons multimodaux | Dans cet article, nous présentons MIO, un nouveau modèle de base construit sur des jetons multimodaux, capable de comprendre et de générer de la parole, du texte, des images et des vidéos de manière autorégressive de bout en bout. Bien que l’émergence des grands modèles de langage (LLM) et des grands modèles de langage multimodaux (MM-LLM) propulse les progrès de l’intelligence artificielle générale grâce à leurs capacités polyvalentes, ils manquent encore d’une véritable compréhension et génération de tous les côtés. Récemment, la sortie de GPT-4o a mis en valeur le potentiel remarquable des LLM any-to-any pour des tâches complexes du monde réel, permettant une entrée et une sortie omnidirectionnelles à travers les images, la parole et le texte. Cependant, il est de source fermée et ne prend pas en charge la génération de séquences entrelacées multimodales. Pour combler cette lacune, nous présentons MIO, qui est formé sur un mélange de jetons discrets selon quatre modalités à l'aide d'une modélisation multimodale causale. MIO suit un processus de formation en quatre étapes : (1) pré-formation à l'alignement, (2) pré-formation entrelacée, (3) pré-formation à l'amélioration de la parole et (4) réglage fin supervisé complet sur divers textes, visuels, et les tâches de parole. Nos résultats expérimentaux indiquent que MIO présente des performances compétitives, et dans certains cas supérieures, par rapport aux précédentes références bimodales, aux références de modèle tout-à-tout et même aux références spécifiques à une modalité. De plus, MIO démontre des capacités avancées inhérentes à sa fonctionnalité tout-à-tout, telles que la génération de texte vidéo entrelacé, le raisonnement en chaîne de pensée visuelle, la génération de lignes directrices visuelles, l'édition d'images pédagogiques, etc. |
26 septembre 2024 | MaskLLM : parcimonie semi-structurée apprenable pour les grands modèles de langage | Les grands modèles linguistiques (LLM) se distinguent par leur grand nombre de paramètres, qui entraînent généralement une redondance importante. Ce travail présente MaskLLM, une méthode d'élagage apprenable qui établit une parcimonie semi-structurée (ou « N:M ») dans les LLM, visant à réduire la surcharge de calcul lors de l'inférence. Au lieu de développer un nouveau critère d'importance, MaskLLM modélise explicitement les modèles N: M comme une distribution apprenable via l'échantillonnage Gumbel Softmax. Cette approche facilite la formation de bout en bout sur des ensembles de données à grande échelle et offre deux avantages notables : 1) Masques de haute qualité : notre méthode s'adapte efficacement aux grands ensembles de données et apprend des masques précis ; 2) Transférabilité - la modélisation probabiliste de la distribution des masques permet le transfert d'apprentissage de la parcimonie entre domaines ou tâches. Nous avons évalué MaskLLM en utilisant une parcimonie de 2:4 sur divers LLM, notamment LLaMA-2, Nemotron-4 et GPT-3, avec des tailles allant de 843 M à 15 B de paramètres, et nos résultats empiriques montrent des améliorations substantielles par rapport à l'état de l'art. méthodes. Par exemple, les principales approches atteignent une perplexité (PPL) de 10 ou plus sur Wikitext par rapport au 5,12 PPL du modèle dense, mais MaskLLM atteint un PPL nettement inférieur de 6,72 uniquement en apprenant les masques avec des poids gelés. De plus, la nature apprenable de MaskLLM permet des masques personnalisés pour une application sans perte d'une parcimonie 2:4 aux tâches ou domaines en aval. Le code est disponible sur url{https://github.com/NVlabs/MaskLLM}. |
25 septembre 2024 | Molmo et PixMo : poids ouverts et données ouvertes pour des modèles multimodaux de pointe | Les modèles multimodaux les plus avancés d'aujourd'hui restent exclusifs. Les modèles ouverts les plus puissants s'appuient fortement sur les données synthétiques provenant de VLM propriétaires pour obtenir de bonnes performances, distillant efficacement ces modèles fermés en modèles ouverts. En conséquence, la communauté manque toujours de connaissances fondamentales sur la façon de créer des VLM performants à partir de zéro. Nous présentons Molmo, une nouvelle famille de VLM à la pointe de la technologie dans leur catégorie d'ouverture. Notre innovation clé est un nouvel ensemble de données de légendes d'images très détaillées, entièrement collectées auprès d'annotateurs humains à l'aide de descriptions basées sur la parole. Pour permettre un large éventail d'interactions utilisateur, nous introduisons également un mélange diversifié d'ensembles de données pour un réglage fin, comprenant des questions et réponses en milieu naturel et des données de pointage 2D innovantes. Le succès de notre approche repose sur des choix minutieux concernant les détails de l'architecture du modèle, un pipeline de formation bien réglé et, surtout, la qualité de nos ensembles de données nouvellement collectés, qui seront tous publiés. Le modèle 72B, le meilleur de sa catégorie, surpasse non seulement les autres modèles de poids et de données ouverts, mais se compare également favorablement aux systèmes propriétaires tels que GPT-4o, Claude 3.5 et Gemini 1.5, à la fois sur les critères académiques et sur l'évaluation humaine. . Nous publierons prochainement tous nos poids de modèle, nos données de sous-titrage et de réglage fin, ainsi que notre code source. Certains poids de modèle, le code d'inférence et la démo sont disponibles sur https://molmo.allenai.org. |
25 septembre 2024 | VPTQ : quantification vectorielle post-formation à bits extrêmement faibles pour les grands modèles de langage | La mise à l'échelle de la taille du modèle remet considérablement en question le déploiement et l'inférence de grands modèles linguistiques (LLM). En raison de la redondance des poids LLM, des recherches récentes se sont concentrées sur la poussée de la quantification basée uniquement sur le poids jusqu'à des bits extrêmement faibles (même jusqu'à 2 bits). Il réduit les besoins en mémoire, optimise les coûts de stockage et diminue les besoins en bande passante mémoire pendant l'inférence. Cependant, en raison des limites de la représentation numérique, la quantification de poids traditionnelle basée sur un scalaire a du mal à atteindre des bits aussi bas. Des recherches récentes sur la quantification vectorielle (VQ) pour les LLM ont démontré le potentiel d'une quantification de modèles à bits extrêmement faibles en compressant les vecteurs en indices à l'aide de tables de recherche. Dans cet article, nous introduisons la quantification vectorielle post-entraînement (VPTQ) pour la quantification à bits extrêmement faibles des LLM. Nous utilisons l'optimisation du second ordre pour formuler le problème LLM VQ et guider la conception de notre algorithme de quantification en résolvant l'optimisation. Nous affinons davantage les pondérations en utilisant l'optimisation de second ordre indépendante du canal pour un VQ granulaire. De plus, en décomposant le problème d’optimisation, nous proposons un algorithme d’initialisation de livre de codes bref et efficace. Nous étendons également VPTQ pour prendre en charge la quantification résiduelle et aberrante, ce qui améliore la précision du modèle et compresse davantage le modèle. Nos résultats expérimentaux montrent que VPTQ réduit la perplexité de la quantification du modèle de |
24 septembre 2024 | Time-MoE : modèles de base de séries chronologiques à l'échelle d'un milliard avec un mélange d'experts | L’apprentissage profond pour la prévision de séries chronologiques a connu des progrès significatifs au cours des dernières décennies. Cependant, malgré le succès de la pré-formation à grande échelle dans les domaines du langage et de la vision, les modèles de séries chronologiques pré-entraînés restent limités en termes d'échelle et fonctionnent à un coût élevé, ce qui entrave le développement de modèles de prévision plus performants dans des applications réelles. En réponse, nous introduisons Time-MoE, une architecture évolutive et unifiée conçue pour pré-entraîner des modèles de base de prévision plus grands et plus performants tout en réduisant les coûts d'inférence. En tirant parti d'une conception de mélange d'experts (MoE), Time-MoE améliore l'efficacité des calculs en activant uniquement un sous-ensemble de réseaux pour chaque prédiction, réduisant ainsi la charge de calcul tout en maintenant une capacité de modèle élevée. Cela permet à Time-MoE d'évoluer efficacement sans augmentation correspondante des coûts d'inférence. Time-MoE comprend une famille de modèles de transformateurs uniquement par décodeur qui fonctionnent de manière auto-régressive et prennent en charge des horizons de prévision flexibles avec différentes longueurs de contexte d'entrée. Nous avons pré-entraîné ces modèles sur nos nouvelles données à grande échelle Time-300B, qui couvrent plus de 9 domaines et englobant plus de 300 milliards de points temporels. Pour la première fois, nous avons mis à l’échelle un modèle de base de séries chronologiques jusqu’à 2,4 milliards de paramètres, obtenant ainsi une précision de prévision considérablement améliorée. Nos résultats valident l'applicabilité des lois d'échelle pour les jetons de formation et la taille du modèle dans le contexte de la prévision de séries chronologiques. Comparés aux modèles denses avec le même nombre de paramètres activés ou des budgets de calcul équivalents, nos modèles les surpassent systématiquement et largement. Ces avancées positionnent Time-MoE comme une solution de pointe pour relever les défis réels de prévision de séries chronologiques avec une capacité, une efficacité et une flexibilité supérieures. |
23 septembre 2024 | Une étude préliminaire de o1 en médecine : sommes-nous plus proches d’un docteur en IA ? | Les grands modèles de langage (LLM) ont montré des capacités remarquables dans divers domaines et tâches, repoussant les limites de nos connaissances en matière d'apprentissage et de cognition. Le dernier modèle, OpenAI's o1, se distingue comme le premier LLM avec une technique de chaîne de pensée intériorisée utilisant des stratégies d'apprentissage par renforcement. Bien qu’il ait démontré des capacités étonnamment fortes dans diverses tâches linguistiques générales, ses performances dans des domaines spécialisés tels que la médecine restent inconnues. À cette fin, ce rapport propose une exploration complète de o1 sur différents scénarios médicaux, en examinant 3 aspects clés : la compréhension, le raisonnement et le multilinguisme. Plus précisément, notre évaluation comprend 6 tâches utilisant des données provenant de 37 ensembles de données médicales, dont deux tâches de réponse aux questions (AQ) nouvellement construites et plus difficiles, basées sur des quiz médicaux professionnels du New England Journal of Medicine (NEJM) et de The Lancet. Ces ensembles de données offrent une plus grande pertinence clinique par rapport aux références médicales standard d’assurance qualité telles que MedQA, se traduisant plus efficacement en utilité clinique réelle. Notre analyse de o1 suggère que la capacité de raisonnement améliorée des LLM peut bénéficier (de manière significative) à leur capacité à comprendre diverses instructions médicales et à raisonner à travers des scénarios cliniques complexes. Notamment, o1 surpasse le précédent GPT-4 en termes de précision de 6,2 % et 6,6 % en moyenne sur 19 ensembles de données et deux scénarios d'assurance qualité complexes nouvellement créés. Mais entre-temps, nous identifions plusieurs faiblesses à la fois dans la capacité du modèle et dans les protocoles d'évaluation existants, notamment les hallucinations, la capacité multilingue incohérente et les mesures divergentes pour l'évaluation. Nous publions nos données brutes et les résultats de notre modèle sur https://ucsc-vlaa.github.io/o1_medicine/ pour des recherches futures. |
21 septembre 2024 | Suivi des instructions sans réglage des instructions | Le réglage des instructions signifie généralement affiner un modèle de langage sur des paires instruction-réponse. Nous découvrons deux formes d'adaptation (réglage) qui sont déficientes par rapport au réglage des instructions, mais qui permettent néanmoins de suivre les instructions ; nous appelons cela le réglage implicite des instructions. Nous constatons d’abord que les paires instruction-réponse ne sont pas nécessaires : un entraînement uniquement sur les réponses, sans aucune instruction correspondante, donne lieu à un suivi d’instructions. Cela suggère que les modèles pré-entraînés ont une cartographie instruction-réponse qui est révélée en enseignant au modèle la distribution souhaitée des réponses. Cependant, nous constatons alors qu'il n'est pas nécessaire d'enseigner la distribution souhaitée des réponses : l'entraînement instruction-réponse sur des données à domaine restreint comme la poésie conduit toujours à un comportement général de suivi des instructions comme la génération de recettes. En particulier, lorsque les instructions sont très différentes de celles du domaine étroit de réglage fin, les réponses des modèles n'adhèrent pas au style du domaine de réglage fin. Pour commencer à expliquer le réglage implicite des instructions, nous émettons l'hypothèse que des modifications très simples apportées à la distribution d'un modèle de langage entraînent le suivi des instructions. Nous soutenons cela en écrivant manuellement un modèle de langage basé sur des règles qui permet de suivre les instructions dans un produit d'experts avec un modèle pré-entraîné. Les règles consistent à augmenter lentement la probabilité de terminer la séquence, à pénaliser la répétition et à modifier uniformément les probabilités de 15 mots. En résumé, les adaptations réalisées sans être conçues pour donner lieu à un suivi des instructions peuvent le faire implicitement. |
20 septembre 2024 | Imaginez-vous : génération d'images personnalisées sans réglage | Les modèles de diffusion ont démontré une efficacité remarquable dans diverses tâches d’image à image. Dans cette recherche, nous présentons Imagine yourself, un modèle de pointe conçu pour la génération d'images personnalisées. Contrairement aux techniques de personnalisation classiques basées sur le réglage, Imagine yourself fonctionne comme un modèle sans réglage, permettant à tous les utilisateurs de tirer parti d'un cadre partagé sans ajustements individualisés. De plus, les travaux antérieurs ont relevé des défis en matière d’équilibre entre la préservation de l’identité, le suivi d’invites complexes et la préservation d’une bonne qualité visuelle, ce qui a abouti à des modèles ayant un fort effet copier-coller des images de référence. Ainsi, ils peuvent difficilement générer des images en suivant des invites qui nécessitent des modifications significatives de l'image de référence, par exemple, un changement d'expression faciale, de pose de la tête et du corps, et la diversité des images générées est faible. Pour remédier à ces limitations, notre méthode proposée introduit 1) un nouveau mécanisme de génération de données synthétiques appariées pour encourager la diversité des images, 2) une architecture d'attention entièrement parallèle avec trois encodeurs de texte et un encodeur de vision entièrement entraînable pour améliorer la fidélité du texte, et 3) un une nouvelle méthodologie de réglage fin en plusieurs étapes, grossière à fine, qui repousse progressivement les limites de la qualité visuelle. Notre étude démontre qu'Imagine yourself surpasse le modèle de personnalisation de pointe, présentant des capacités supérieures en matière de préservation de l'identité, de qualité visuelle et d'alignement du texte. Ce modèle établit une base solide pour diverses applications de personnalisation. Les résultats de l'évaluation humaine valident la supériorité SOTA du modèle dans tous les aspects (préservation de l'identité, fidélité du texte et attrait visuel) par rapport aux modèles de personnalisation précédents. |
19 septembre 2024 | Entraîner des modèles de langage à s'auto-corriger via l'apprentissage par renforcement | L'autocorrection est une capacité hautement souhaitable des grands modèles de langage (LLM), mais elle s'est toujours révélée largement inefficace dans les LLM modernes. Les méthodes actuelles de formation à l'autocorrection dépendent généralement soit de plusieurs modèles, d'un modèle plus avancé ou de formes supplémentaires de supervision. Pour remédier à ces lacunes, nous développons une approche d'apprentissage par renforcement (RL) en ligne multitours, SCoRe, qui améliore considérablement la capacité d'autocorrection d'un LLM en utilisant des données entièrement auto-générées. Pour construire SCoRe, nous montrons d'abord que les variantes de réglage fin supervisé (SFT) sur les traces de correction générées par le modèle hors ligne sont souvent insuffisantes pour inculquer un comportement d'autocorrection. En particulier, nous observons que la formation via SFT est la proie soit d'un décalage de distribution entre les erreurs commises par la politique de collecte de données et les propres réponses du modèle, soit d'un effondrement du comportement, où l'apprentissage préfère implicitement seulement un certain mode de comportement de correction qui est souvent pas efficace pour l'autocorrection des problèmes de test. SCoRe relève ces défis en s'entraînant selon la propre distribution du modèle de traces de correction auto-générées et en utilisant une régularisation appropriée pour orienter le processus d'apprentissage vers l'apprentissage d'un comportement d'autocorrection qui est efficace au moment du test, par opposition à l'adaptation de réponses très rémunératrices pour un résultat donné. rapide. Ce processus de régularisation comprend une phase initiale de RL multitours sur un modèle de base pour générer une initialisation de politique moins susceptible de s'effondrer, suivie de l'utilisation d'un bonus de récompense pour amplifier l'autocorrection. Avec les modèles Gemini 1.0 Pro et 1.5 Flash, nous constatons que SCoRe atteint des performances d'autocorrection de pointe, améliorant l'autocorrection des modèles de base de 15,6 % et 9,1 % respectivement sur MATH et HumanEval. |
19 septembre 2024 | Mise à l'échelle intelligente : accélération de la pré-formation des grands modèles de langage avec l'initialisation des petits modèles | La phase de pré-formation des modèles de langage commence souvent par des paramètres initialisés de manière aléatoire. Avec les tendances actuelles en matière de mise à l'échelle des modèles, la formation de leur grand nombre de paramètres peut être extrêmement lente et coûteuse. En revanche, les petits modèles de langage sont moins coûteux à former, mais ils ne peuvent souvent pas atteindre la précision des grands modèles. Dans cet article, nous explorons une idée intrigante pour relier ces deux régimes différents : pouvons-nous développer une méthode pour initialiser de grands modèles de langage à l'aide de modèles pré-entraînés plus petits ? Une telle initialisation apportera-t-elle des avantages en termes de temps de formation et de précision finale ? Dans cet article, nous présentons l'HyperCloning, une méthode qui peut étendre les paramètres d'un modèle de langage pré-entraîné à ceux d'un modèle plus grand avec des dimensions cachées accrues. Notre méthode garantit que le modèle plus grand conserve les fonctionnalités du modèle plus petit. Par conséquent, le modèle plus grand hérite déjà de la puissance prédictive et de la précision du modèle plus petit avant le début de la formation. Nous démontrons que la formation d'un tel modèle initialisé entraîne des économies significatives en termes d'heures GPU nécessaires à la pré-formation de grands modèles de langage. |
18 septembre 2024 | Rapport technique du codeur Qwen2.5 | Dans ce rapport, nous présentons la série Qwen2.5-Coder, une mise à niveau significative par rapport à son prédécesseur, CodeQwen1.5. Cette série comprend deux modèles : Qwen2.5-Coder-1.5B et Qwen2.5-Coder-7B. En tant que modèle spécifique au code, Qwen2.5-Coder est construit sur l'architecture Qwen2.5 et continue de se pré-entraîner sur un vaste corpus de plus de 5,5 billions de jetons. Grâce à un nettoyage méticuleux des données, une génération de données synthétiques évolutive et un mélange de données équilibré, Qwen2.5-Coder démontre des capacités impressionnantes de génération de code tout en conservant une polyvalence générale. Le modèle a été évalué sur un large éventail de tâches liées au code, atteignant des performances de pointe (SOTA) sur plus de 10 tests de référence, y compris la génération, l'achèvement, le raisonnement et la réparation de code, surpassant systématiquement les modèles plus grands du même taille de modèle. Nous pensons que la sortie de la série Qwen2.5-Coder repoussera non seulement les limites de la recherche en matière d'intelligence du code, mais qu'elle encouragera également, grâce à sa licence permissive, une adoption plus large par les développeurs dans des applications du monde réel. |
18 septembre 2024 | Une étude contrôlée sur l'extension et la généralisation de contextes longs dans les LLM | Une compréhension textuelle étendue et un apprentissage en contexte nécessitent des modèles de langage qui utilisent des contextes de document complets. En raison des défis de mise en œuvre associés à la formation directe de modèles à contexte long, de nombreuses méthodes ont été proposées pour étendre les modèles afin de gérer des contextes longs. Cependant, en raison des différences dans les classes de données et de modèles, il a été difficile de comparer ces approches, ce qui a conduit à une incertitude quant à la manière d'évaluer les performances dans un contexte long et si elles diffèrent de l'évaluation standard. Nous mettons en œuvre un protocole contrôlé pour les méthodes d'extension avec une évaluation standardisée, utilisant des modèles de base et des données d'extension cohérents. Notre étude donne plusieurs informations sur le comportement en contexte long. Premièrement, nous réaffirmons le rôle essentiel de la perplexité en tant qu’indicateur de performance général, même dans les tâches à plus long terme. Deuxièmement, nous constatons que les méthodes actuelles d’attention approximative sont systématiquement sous-performantes dans les tâches à contexte long. Enfin, nous confirmons que les méthodes basées sur un réglage précis sont généralement efficaces dans la limite de leur extension, alors que l'extrapolation reste difficile. Toutes les bases de code, modèles et points de contrôle seront mis à disposition en open source, favorisant ainsi la transparence et facilitant la poursuite des recherches dans ce domaine critique du développement de l'IA. |
18 septembre 2024 | LLM + Persona-Plug = LLM personnalisés | La personnalisation joue un rôle essentiel dans de nombreuses tâches et applications linguistiques, car les utilisateurs ayant les mêmes exigences peuvent préférer des résultats variés en fonction de leurs intérêts individuels. Cela a conduit au développement de diverses approches personnalisées visant à adapter les grands modèles de langage (LLM) pour générer des résultats personnalisés alignés sur les préférences des utilisateurs. Certaines d’entre elles impliquent la mise au point d’un LLM personnalisé unique pour chaque utilisateur, ce qui est trop coûteux pour une application généralisée. Des approches alternatives introduisent des informations de personnalisation de manière plug-and-play en récupérant les textes historiques pertinents de l'utilisateur à titre de démonstrations. Cependant, cette stratégie basée sur la récupération peut rompre la continuité de l'historique de l'utilisateur et ne pas réussir à capturer les styles et modèles globaux de l'utilisateur, conduisant ainsi à des performances sous-optimales. Pour relever ces défis, nous proposons un nouveau modèle LLM personnalisé, ours{}. Il construit une intégration spécifique à l'utilisateur pour chaque individu en modélisant tous ses contextes historiques via un module d'intégration utilisateur plug-in léger. En attachant cette intégration à l'entrée de la tâche, les LLM peuvent mieux comprendre et capturer les habitudes et les préférences des utilisateurs, produisant ainsi des résultats plus personnalisés sans ajuster leurs propres paramètres. Des expériences approfondies sur diverses tâches du benchmark de personnalisation du modèle de langage (LaMP) démontrent que le modèle proposé surpasse considérablement les approches LLM personnalisées existantes. |
17 septembre 2024 | NVLM : LLM multimodaux de classe frontière ouverte | Nous présentons NVLM 1.0, une famille de grands modèles de langage (LLM) multimodaux de classe frontière qui obtiennent des résultats de pointe sur les tâches de langage de vision, rivalisant avec les principaux modèles propriétaires (par exemple, GPT-4o) et en libre accès. modèles (par exemple, Llama 3-V 405B et InternVL 2). Remarquablement, NVLM 1.0 affiche des performances améliorées en texte uniquement sur son squelette LLM après une formation multimodale. En termes de conception de modèles, nous effectuons une comparaison complète entre les LLM multimodaux avec décodeur uniquement (par exemple, LLaVA) et les modèles basés sur l'attention croisée (par exemple, Flamingo). Sur la base des forces et des faiblesses des deux approches, nous proposons une nouvelle architecture qui améliore à la fois l'efficacité de la formation et les capacités de raisonnement multimodal. En outre, nous introduisons une conception de marquage de tuiles 1D pour les images dynamiques haute résolution basées sur des tuiles, qui améliore considérablement les performances du raisonnement multimodal et des tâches liées à l'OCR. En ce qui concerne les données de formation, nous organisons et fournissons méticuleusement des informations détaillées sur nos ensembles de données de pré-entraînement multimodal et de réglage fin supervisé. Nos résultats indiquent que la qualité des ensembles de données et la diversité des tâches sont plus importantes que l'échelle, même pendant la phase de pré-formation, dans toutes les architectures. Nous développons notamment une multimodalité de qualité production pour les modèles NVLM-1.0, leur permettant d'exceller dans les tâches de langage de vision tout en conservant et même en améliorant les performances en texte uniquement par rapport à leurs bases LLM. Pour y parvenir, nous créons et intégrons un ensemble de données textuelles uniquement de haute qualité dans la formation multimodale, ainsi qu'une quantité substantielle de données mathématiques et de raisonnement multimodales, conduisant à des capacités mathématiques et de codage améliorées dans toutes les modalités. Pour faire progresser la recherche dans le domaine, nous publions les poids du modèle et ouvrirons le code en open source pour la communauté : https://nvlm-project.github.io/. |
17 septembre 2024 | Promptriever : les récupérateurs formés à l'instruction peuvent être invités comme des modèles de langage | Les modèles de langage (LM) adaptés aux instructions sont capables de répondre aux commandes impératives, offrant une interface utilisateur plus naturelle par rapport à leurs homologues de base. Dans ce travail, nous présentons Promptriever, le premier modèle de récupération capable d'être invité comme un LM. Pour former Promptriever, nous organisons et publions un nouvel ensemble de formation d'instructions au niveau de l'instance de MS MARCO, couvrant près de 500 000 instances. Promptriever réalise non seulement de solides performances sur les tâches de récupération standard, mais suit également les instructions. Nous observons : (1) des gains importants (atteignant SoTA) en suivant des instructions de pertinence détaillées (+14,3 p-MRR / +3,1 nDCG sur FollowIR), (2) une robustesse significativement accrue aux choix/phrases lexicaux dans la requête+instruction (+12,9 Robustness@10 sur InstructIR) et (3) la possibilité d'effectuer une recherche d'hyperparamètres via des invites pour améliorer de manière fiable les performances de récupération (+1,4 augmentation moyenne sur BEIR). Promptriever démontre que les modèles de récupération peuvent être contrôlés avec des invites pour chaque requête, ouvrant la voie à des travaux futurs alignant les techniques d'invite LM sur la récupération d'informations. |
17 septembre 2024 | Une évaluation complète des grands modèles de langage quantifiés adaptés aux instructions : une analyse expérimentale jusqu'à 405B | Des travaux de recherche antérieurs ont évalué les LLM quantifiés à l'aide de mesures limitées telles que la perplexité ou quelques tâches de connaissances de base et d'anciens ensembles de données. De plus, les modèles récents à grande échelle tels que Llama 3.1 avec jusqu'à 405B n'ont pas été examinés de manière approfondie. Cet article évalue les performances des LLM réglés par les instructions dans diverses méthodes de quantification (GPTQ, AWQ, SmoothQuant et FP8) sur des modèles allant de 7B à 405B. À l'aide de 13 critères de référence, nous évaluons les performances dans six types de tâches : questions et réponses de bon sens, connaissances et compréhension du langage, suivi des instructions, détection des hallucinations, mathématiques et dialogue. Nos principales conclusions révèlent que (1) la quantification d'un LLM plus grand à une taille similaire à celle d'un LLM FP16 plus petit fonctionne généralement mieux dans la plupart des tests, à l'exception de la détection des hallucinations et du suivi des instructions ; (2) les performances varient considérablement selon les différentes méthodes de quantification, la taille du modèle et la largeur de bits, les méthodes basées uniquement sur le poids donnant souvent de meilleurs résultats dans les modèles plus grands ; (3) la difficulté de la tâche n’a pas d’impact significatif sur la dégradation de la précision due à la quantification ; et (4) la méthode d'évaluation MT-Bench a un pouvoir discriminatoire limité parmi les récents LLM très performants. |
16 septembre 2024 | RetrievalAttention : accélération de l'inférence LLM à contexte long via la récupération de vecteurs | Les grands modèles linguistiques (LLM) basés sur des transformateurs sont devenus de plus en plus importants. Cependant, en raison de la complexité temporelle quadratique du calcul de l'attention, la mise à l'échelle des LLM sur des contextes plus longs entraîne une latence d'inférence extrêmement lente et une consommation de mémoire GPU élevée pour la mise en cache des vecteurs clé-valeur (KV). Cet article propose RetrievalAttention, une approche sans formation pour à la fois accélérer le calcul de l'attention et réduire la consommation de mémoire GPU. En tirant parti du mécanisme dynamique de rareté de l'attention, RetrievalAttention propose d'utiliser des index de recherche approximative du voisin le plus proche (ANNS) pour les vecteurs KV dans la mémoire CPU et récupère les plus pertinents avec la recherche de vecteurs pendant la génération. Malheureusement, nous observons que les index ANNS disponibles dans le commerce sont souvent inefficaces pour de telles tâches de récupération en raison de la distribution hors distribution (OOD) entre les vecteurs de requête et les vecteurs clés du mécanisme d'attention. RetrievalAttention relève le défi OOD en concevant un algorithme de recherche vectorielle sensible à l'attention qui peut s'adapter à la distribution des vecteurs de requête. Notre évaluation montre que RetrievalAttention n'a besoin d'accéder qu'à 1 à 3 % des données tout en conservant une précision élevée du modèle. Cela conduit à une réduction significative du coût d’inférence des LLM à contexte long avec une empreinte mémoire GPU bien inférieure. En particulier, RetrievalAttention n'a besoin que d'un seul NVIDIA RTX4090 (24 Go) pour servir 128 000 jetons dans des LLM avec des paramètres de 8 B, capable de générer un jeton en 0,188 seconde. |
16 septembre 2024 | Transformateur Kolmogorov-Arnold | Les transformateurs constituent la pierre angulaire de l’apprentissage profond moderne. Traditionnellement, ces modèles s'appuient sur des couches de perceptrons multicouches (MLP) pour mélanger les informations entre les canaux. Dans cet article, nous présentons le Kolmogorov-Arnold Transformer (KAT), une nouvelle architecture qui remplace les couches MLP par des couches Kolmogorov-Arnold Network (KAN) pour améliorer l'expressivité et les performances du modèle. L’intégration des KAN dans les transformateurs n’est cependant pas une tâche facile, surtout lorsqu’elle est étendue. Plus précisément, nous identifions trois défis clés : (C1) Fonction de base. La fonction B-spline standard utilisée dans les KAN n'est pas optimisée pour le calcul parallèle sur du matériel moderne, ce qui entraîne des vitesses d'inférence plus lentes. (C2) Inefficacité des paramètres et des calculs. KAN nécessite une fonction unique pour chaque paire entrée-sortie, ce qui rend le calcul extrêmement volumineux. (C3) Initialisation du poids. L'initialisation des poids dans les KAN est particulièrement difficile en raison de leurs fonctions d'activation apprenables, qui sont essentielles pour parvenir à la convergence dans les réseaux neuronaux profonds. Pour surmonter les défis susmentionnés, nous proposons trois solutions clés : (S1) Base rationnelle. Nous remplaçons les fonctions B-spline par des fonctions rationnelles pour améliorer la compatibilité avec les GPU modernes. En implémentant cela dans CUDA, nous obtenons des calculs plus rapides. (S2) Groupe KAN. Nous partageons les poids d'activation via un groupe de neurones, afin de réduire la charge de calcul sans sacrifier les performances. (S3) Initialisation avec préservation de la variance. Nous initialisons soigneusement les poids d'activation pour nous assurer que la variance d'activation est maintenue entre les couches. Avec ces conceptions, KAT éclate efficacement et facilement les transformateurs traditionnels basés sur MLP. |
16 septembre 2024 | Sur le diagramme de la pensée | Nous introduisons un diagramme de pensée (DOT), un cadre qui modélise le raisonnement itératif dans les modèles de grande langue (LLMS) comme construction d'un graphique acyclique dirigé (DAG) dans un seul modèle. Contrairement aux approches traditionnelles qui représentent le raisonnement comme des chaînes ou des arbres linéaires, DOT organise les propositions, les critiques, les raffinements et les vérifications dans une structure DAG cohésive, permettant au modèle d'explorer des voies de raisonnement complexes tout en maintenant la cohérence logique. Chaque nœud du diagramme correspond à une proposition qui a été proposée, critiquée, affinée ou vérifiée, permettant au LLM d'améliorer itérativement son raisonnement par la rétroaction du langage naturel. En tirant parti de la prédiction auto-régressive suivante avec des jetons spécifiques au rôle, DOT facilite les transitions transparentes entre la proposition d'idées et les évaluer de manière critique, fournissant des commentaires plus riches que les signaux binaires. De plus, nous formalisons le cadre DOT à l'aide de la théorie des topos, fournissant une base mathématique qui garantit la cohérence et la solidité logiques dans le processus de raisonnement. Cette approche améliore à la fois les processus d'entraînement et d'inférence dans un seul LLM, éliminant le besoin de modèles multiples ou de mécanismes de contrôle externes. DOT propose un cadre conceptuel pour la conception de modèles spécialisés au raisonnement de nouvelle génération, mettant l'accent sur l'efficacité de la formation, les capacités de raisonnement robustes et la mise à la terre théorique. Le code est disponible sur https://github.com/diagram-of-thought/diagram-of-thought. |
12 septembre 2024 | DSBENCH: Jusqu'où les agents de la science des données deviennent-ils des experts en science des données? | Les modèles de grands langues (LLM) et les grands modèles de vision (LVLM) ont démontré des capacités de raisonnement de langage / vision impressionnantes, déclenchant la tendance récente des agents de construction pour des applications ciblées telles que les assistants commerciaux ou les ingénieurs logiciels d'IA. Récemment, de nombreux repères de la science des données ont été proposés pour étudier leurs performances dans le domaine des sciences des données. Cependant, les repères de science des données existants ne sont toujours pas inscrits par rapport aux applications de science des données réelles en raison de leurs paramètres simplifiés. Pour combler cet écart, nous présentons DSBench, une référence complète conçue pour évaluer les agents de la science des données avec des tâches réalistes. Cette référence comprend 466 tâches d'analyse des données et 74 tâches de modélisation des données, provenant des compétitions d'éloquence et de kaggle. DSBench offre un paramètre réaliste en englobant de longs contextes, des arrière-plans de tâches multimodaux, du raisonnement avec de grands fichiers de données et des structures multiples et effectuant des tâches de modélisation de données de bout en bout. Notre évaluation des LLMS, des LVLM et des agents de pointe montre qu'ils luttent avec la plupart des tâches, avec les meilleurs agents qui résolvant seulement 34,12% des tâches d'analyse des données et l'obtention d'un écart de performance relatif de 34,74% (RPG). Ces résultats soulignent la nécessité de nouveaux progrès dans le développement d'agents scientifiques des données pratiques, intelligents et autonomes. |
10 septembre 2024 | Pingpong: une référence pour les modèles de langage de jeu avec l'émulation des utilisateurs et l'évaluation multi-modèles | Nous introduisons une nouvelle référence pour évaluer les capacités de jeu de rôle des modèles de langue. Notre approche exploite les modèles de langage eux-mêmes pour imiter les utilisateurs dans les conversations dynamiques et multi-tours et pour évaluer les dialogues résultants. Le cadre se compose de trois composants principaux: un modèle de joueur en supposant un rôle de caractère spécifique, un modèle d'interrogateur simulant le comportement des utilisateurs et un modèle de juge évaluant la qualité de la conversation. Nous avons mené des expériences comparant des évaluations automatisées avec des annotations humaines pour valider notre approche, démontrant de fortes corrélations à travers plusieurs critères. Ce travail fournit une base pour une évaluation robuste et dynamique des capacités du modèle dans les scénarios interactifs. |
10 septembre 2024 | Llama-OMNI: interaction de la parole sans couture avec des modèles de grands langues | Des modèles comme GPT-4O permettent une interaction en temps réel avec les modèles de grands langues (LLM) par la parole, améliorant considérablement l'expérience utilisateur par rapport à l'interaction traditionnelle basée sur le texte. Cependant, il y a toujours un manque d'exploration sur la façon de construire des modèles d'interaction de la parole basés sur les LLM open source. Pour y remédier, nous proposons Llama-OMNI, une nouvelle architecture modèle conçue pour une interaction de discours de faible latence et de haute qualité avec les LLM. Llama-OMNI intègre un encodeur de discours pré-entraîné, un adaptateur de la parole, un LLM et un décodeur de parole de streaming. Il élimine le besoin de transcription de la parole et peut générer simultanément des réponses de texte et de parole directement à partir d'instructions vocales avec une latence extrêmement faible. Nous construisons notre modèle basé sur le dernier modèle LLAMA-3.1-8B-Istruct. Pour aligner le modèle avec des scénarios d'interaction de la parole, nous construisons un ensemble de données nommé InstructS2S-200K, qui comprend 200k instructions de la parole et des réponses vocales correspondantes. Les résultats expérimentaux montrent que par rapport aux modèles de langage de la parole précédents, Llama-OMNI offre de meilleures réponses dans le contenu et le style, avec une latence de réponse aussi faible que 226 ms. De plus, Training Llama-OMNI prend moins de 3 jours sur seulement 4 GPU, ouvrant la voie au développement efficace de modèles en langue de la parole à l'avenir. |
10 septembre 2024 | Les modèles de grands langues peuvent-ils débloquer de nouvelles idées de recherche scientifique? | "Une idée n'est rien de plus ni moins qu'une nouvelle combinaison d'éléments anciens" (Young, JW). L'adoption généralisée de modèles de grande langue (LLMS) et de chatpt accessible au public a marqué un tournant important dans l'intégration de l'intelligence artificielle (IA) dans la vie quotidienne des gens. Cette étude explore la capacité des LLM dans la génération de nouvelles idées de recherche basées sur les informations des articles de recherche. Nous effectuons un examen approfondi de 4 LLMS dans cinq domaines (par exemple, chimie, informatique, économie, médical et physique). Nous avons constaté que les futures idées de recherche générées par Claude-2 et GPT-4 sont plus alignées sur la perspective de l'auteur que GPT-3.5 et Gemini. Nous avons également constaté que Claude-2 génère des idées de recherche futures plus diverses que GPT-4, GPT-3.5 et Gemini 1.0. Nous avons en outre effectué une évaluation humaine de la nouveauté, de la pertinence et de la faisabilité des idées de recherche futures générées. Cette enquête offre des informations sur l'évolution du rôle des LLM dans la génération d'idées, mettant en évidence à la fois ses capacités et ses limites. Notre travail contribue aux efforts continus dans l'évaluation et l'utilisation de modèles de langage pour générer de futures idées de recherche. Nous mettons nos ensembles de données et codes disponibles publiquement. |
9 septembre 2024 | SongCreator: Génération universelle basée sur les paroles | La musique fait partie intégrante de la culture humaine, incarnant l'intelligence et la créativité humaines, dont les chansons composent une partie essentielle. Bien que divers aspects de la génération de chansons aient été explorés par des œuvres précédentes, telles que la voix chanteuse, la composition vocale et l'arrangement instrumental, etc., générer des chansons avec des voix et l'accompagnement étant donné des paroles reste un défi important, entravant l'application des modèles de génération de musique dans le monde réel. Dans cette optique, nous proposons SongCreator, un système de génération de chansons conçu pour relever ce défi. Le modèle présente deux nouvelles conceptions: un modèle de langage à double séquence méticuleusement conçu (DSLM) pour capturer les informations sur les voix et l'accompagnement pour la génération de chansons, et une stratégie de masque d'attention supplémentaire pour DSLM, qui permet à notre modèle de comprendre, de générer et de modifier des chansons , le rendant adapté à diverses tâches de génération liées aux chansons. Des expériences approfondies démontrent l'efficacité de SongCreator en réalisant des performances de pointe ou compétitives sur les huit tâches. Notamment, il dépasse les œuvres précédentes par une grande marge en paroles de la chanson et des paroles de vocaux. De plus, il est capable de contrôler indépendamment les conditions acoustiques de la voix et d'accompagner dans la chanson générée à travers différentes invites, présentant son applicabilité potentielle. Nos échantillons sont disponibles sur https://songcreator.github.io/. |
9 septembre 2024 | Hyperagent: Agents de génie logiciel généraliste pour résoudre les tâches de codage à grande échelle | Les modèles de grands langues (LLM) ont révolutionné l'ingénierie logicielle (SE), démontrant des capacités remarquables dans diverses tâches de codage. Bien que les efforts récents aient produit des agents logiciels autonomes basés sur les LLM pour les tâches de développement de bout en bout, ces systèmes sont généralement conçus pour des tâches SE spécifiques. Nous présentons Hyperager, un nouveau système multi-agent généraliste conçu pour résoudre un large éventail de tâches SE dans différents langages de programmation en imitant les flux de travail des développeurs humains. Comprenant quatre agents spécialisés - planificateur, navigateur, éditeur de code et exécuteur de l'exécuteur. Hyperagent gère le cycle de vie complet des tâches SE, de la conception initiale à la vérification finale. Grâce à des évaluations approfondies, Hyperagent atteint des performances de pointe dans diverses tâches SE: elle atteint un taux de réussite de 25,01% sur SWE-Bench-Lite et 31,40% sur la résolution de problèmes GitHub SWE, dépassant les méthodes existantes. En outre, Hyperagent démontre les performances de SOTA dans la génération de code au niveau du référentiel (Repoexec), et dans la localisation des défauts et la réparation du programme (Defects4J), surpassent souvent les systèmes spécialisés. Ce travail représente une progression importante vers des agents autonomes polyvalents capables de gérer des tâches SE complexes et en plusieurs étapes dans divers domaines et langues, potentiellement transformant des pratiques de développement logiciel assistées par l'IA. |
9 septembre 2024 | Memorag: se diriger vers le chiffon de nouvelle génération via la découverte des connaissances inspirées de la mémoire | La génération de récupération (RAG) de la récupération exploite des outils de récupération pour accéder aux bases de données externes, améliorant ainsi la qualité de génération des modèles de grande langue (LLM) grâce à un contexte optimisé. Cependant, les méthodes de récupération existantes sont limitées intrinsèquement, car elles ne peuvent effectuer que la correspondance de pertinence entre les requêtes explicitement déclarées et les connaissances bien formées, mais incapables de gérer les tâches impliquant des besoins d'information ambiguës ou des connaissances non structurées. Par conséquent, les systèmes de chiffon existants sont principalement efficaces pour des tâches de résistance aux questions simples. Dans ce travail, nous proposons Memorag, un nouveau paradigme de génération auprès de la récupération autoritaire habilité par la mémoire à long terme. Memorag adopte une architecture à double système. D'une part, il utilise un LLM léger mais à longue portée pour former la mémoire globale de la base de données. Une fois qu'une tâche est présentée, elle génère des projets de réponses, faisant clure les outils de récupération pour localiser des informations utiles dans la base de données. D'un autre côté, il exploite un LLM coûteux mais expressif, qui génère la réponse ultime en fonction des informations récupérées. S'appuyant sur ce cadre général, nous optimisons davantage les performances de Memorag en améliorant son mécanisme d'indice et sa capacité de mémorisation. Dans notre expérience, Memorag réalise des performances supérieures dans une variété de tâches d'évaluation, y compris les deux complexes où les chiffons conventionnels échouent et celles simples où le chiffon est couramment appliqué. |
8 septembre 2024 | OneGen: Génération et récupération unifiées à un-passage efficace pour les LLM | Malgré les progrès récents dans les modèles de grande langue (LLM), qui ont considérablement amélioré les capacités génératives de diverses tâches PNL, les LLM sont toujours des limites pour gérer directement les tâches de récupération. Cependant, de nombreuses applications pratiques exigent l'intégration transparente de la récupération et de la génération. Cet article introduit un cadre de génération et de récupération d'un passage nouvelle et efficace (Onegen), conçu pour améliorer les performances des LLMS sur les tâches qui nécessitent à la fois la génération et la récupération. Le cadre proposé plie les approches de formation traditionnellement séparées pour la génération et la récupération en incorporant des jetons de récupération générés de manière autorégressive. Cela permet à un seul LLM de gérer les deux tâches simultanément dans une passe avant unifiée. Nous effectuons des expériences sur deux types distincts de tâches composites, de liaison de chiffon et d'entités, pour valider la plugabilité, l'efficacité et l'efficacité de OneGen dans l'entraînement et l'inférence. En outre, nos résultats montrent que l'intégration de la génération et de la récupération dans le même contexte préserve les capacités génératives des LLM tout en améliorant les performances de récupération. À notre connaissance, Onegen est le premier à permettre aux LLM de effectuer une récupération vectorielle pendant la génération. |
6 septembre 2024 | Copilot papier: un système LLM autonome et efficace pour une assistance académique personnalisée | À mesure que la recherche scientifique prolifère, les chercheurs sont confrontés à la tâche intimidante de naviguer et de lire de grandes quantités de littérature. Les solutions existantes, telles que le document QA, ne fournissent pas efficacement d'informations personnalisées et à jour. Nous présentons Paper Copilot, un système LLM qui évolue et efficace conçu pour aider les chercheurs, basé sur la pensée-ré-réalisée, le profil utilisateur et l'optimisation haute performance. Plus précisément, Paper Copilot peut offrir des services de recherche personnalisés, en maintenant une base de données mise à jour en temps réel. L'évaluation quantitative démontre que le copilot papier économise 69,92% du temps après un déploiement efficace. Cet article détaille la conception et la mise en œuvre de Paper Copilot, mettant en évidence ses contributions au soutien académique personnalisé et son potentiel pour rationaliser le processus de recherche. |
5 septembre 2024 | Attention, chefs de grands modèles de langue: une enquête | Depuis l'avènement de Chatgpt, les modèles de grands langues (LLM) ont excellé dans diverses tâches mais restent en tant que systèmes de boîte noire. Par conséquent, les goulots d'étranglement du raisonnement des LLM sont principalement influencés par leur architecture interne. En conséquence, de nombreux chercheurs ont commencé à explorer les mécanismes internes potentiels des LLM, la plupart des études se concentrant sur les têtes d'attention. Notre enquête vise à faire la lumière sur les processus de raisonnement interne des LLM en se concentrant sur les mécanismes sous-jacents des têtes d'attention. Nous distillons d'abord le processus de pensée humaine en un cadre en quatre étapes: rappel des connaissances, identification dans le contexte, raisonnement latent et préparation d'expression. En utilisant ce cadre, nous passons systématiquement les recherches existantes pour identifier et classer les fonctions de têtes d'attention spécifiques. De plus, nous résumons les méthodologies expérimentales utilisées pour découvrir ces têtes spéciales, en les divisant en deux catégories: méthodes sans modélisation et méthodes requises de modélisation. Nous décrivons également les méthodes d'évaluation pertinentes et les repères. Enfin, nous discutons des limites de la recherche actuelle et proposons plusieurs orientations futures potentielles. |
5 septembre 2024 | Comment les LLM de votre code fonctionnent-ils? Autonomiser le réglage des instructions du code avec des données de haute qualité | Récemment, il y a eu un intérêt croissant à étudier comment construire de meilleurs données de réglage des instructions de code. Cependant, nous observons que les modèles de code formés avec ces ensembles de données présentent des performances élevées sur Humaneval mais permettent de performer sur d'autres repères tels que LivecodeBench. Après une enquête plus approfondie, nous constatons que de nombreux ensembles de données souffrent de fuites de données sévères. Après avoir nettoyé la plupart des données divulguées, certains ensembles de données de haute qualité bien connus fonctionnent mal. Cette découverte révèle un nouveau défi: identifier quel ensemble de données est vraiment qualifié de données d'instructions de code de haute qualité. Pour y remédier, nous proposons une stratégie de réglage de données de code efficace pour sélectionner de bons échantillons. Notre approche est basée sur trois dimensions: la complexité de l'instruction, la qualité de la réponse et la diversité des instructions. Sur la base de nos données sélectionnées, nous présentons Xcoder, une famille de modèles fineturés de LLAMA3. Nos expériences montrent que Xcoder atteint de nouvelles performances de pointe en utilisant moins de données de formation, qui vérifient l'efficacité de notre stratégie de données. De plus, nous effectuons une analyse complète sur la composition des données et constatons que les ensembles de données de code existants ont des caractéristiques différentes en fonction de leurs méthodes de construction, qui fournissent de nouvelles informations aux futurs LLM de code. Nos modèles et ensemble de données sont publiés dans https://github.com/banksy23/xcoder |
5 septembre 2024 | Du MOOC à MAIC: remodeler l'enseignement et l'apprentissage en ligne par le biais d'agents axés sur LLM | Depuis les premiers cas d'éducation en ligne, où les cours ont été téléchargés sur des plateformes en ligne accessibles et partagées, cette forme de mise à l'échelle de la diffusion des connaissances humaines pour atteindre un public plus large a déclenché une discussion approfondie et une adoption généralisée. Reconnaissant que l'apprentissage personnalisé a toujours un potentiel d'amélioration important, les nouvelles technologies d'IA ont été intégrées en permanence dans ce format d'apprentissage, ce qui a entraîné une variété d'applications éducatives d'IA telles que la recommandation éducative et le tutorat intelligent. L'émergence de l'intelligence dans les modèles de grandes langues (LLM) a permis de construire ces améliorations éducatives sur un modèle fondamental unifié, permettant une intégration plus approfondie. Dans ce contexte, nous proposons MAIC (cours massifs de l'adaptation de l'IA), une nouvelle forme d'éducation en ligne qui exploite des systèmes multi-agents axés sur la LLM pour construire une salle de classe Augmentée AI, équilibrant l'évolutivité avec l'adaptivité. Au-delà de l'exploration du cadre conceptuel et des innovations techniques, nous effectuons des expériences préliminaires à l'Université Tsinghua, l'une des principales universités chinoises. S'inspirant de plus de 100 000 enregistrements d'apprentissage de plus de 500 étudiants, nous obtenons une série d'observations précieuses et d'analyses initiales. Ce projet continuera d'évoluer, visant finalement à établir une plate-forme ouverte complète qui soutient et unifie la recherche, la technologie et les applications dans l'exploration des possibilités de l'éducation en ligne à l'ère du grand modèle AI. Nous envisageons cette plate-forme en tant que centre collaboratif, réunissant des éducateurs, des chercheurs et des innovateurs pour explorer collectivement l'avenir de l'éducation en ligne dirigée par l'IA. |
4 septembre 2024 | Longcite: permettant aux LLMS de générer des citations à grain fin dans un QA à long contexte | Bien que les modèles de langage à long contexte à long terme (LLM) aient démontré des capacités impressionnantes pour répondre aux questions des utilisateurs en fonction du texte étendu, le manque de citations dans leurs réponses rend difficile la vérification des utilisateurs, ce qui entraîne des préoccupations concernant leur fiabilité en raison de leurs hallucinations potentielles. Dans ce travail, nous visons à permettre aux LLM de contexte à long terme de générer des réponses avec des citations au niveau des phrases à grain fin, améliorant leur fidélité et leur vérifiabilité. Nous introduisons d'abord Longbench-Cite, une référence automatisée pour évaluer les performances des LLMS actuelles dans la réponse à un contexte à long contexte avec des citations (LQAC), révélant une place considérable à l'amélioration. À cette fin, nous proposons le COF (grossier à fine), un nouveau pipeline qui utilise des LLM standard pour générer automatiquement des instances de QA en contexte à long terme avec des citations de phrase précises, et exploitez ce pipeline pour construire Longcite-45K, un Ensemble de données SFT à grande échelle pour LQAC. Enfin, nous formons Longcite-8b et Longcite-9b en utilisant l'ensemble de données LongCite-45K, permettant avec succès leur génération de réponses précises et de citations de phrase à grain fin en une seule sortie. Les résultats de l'évaluation sur le long-cite montrent que nos modèles formés atteignent la qualité de citation de pointe, dépassant les modèles propriétaires avancés, y compris le GPT-4O. |
4 septembre 2024 | Longllava: Échelle des LLM multi-modales à 1000 images efficacement via une architecture hybride | L'élargissement des capacités de contexte à long terme des modèles multimodaux de grande langue ~ (MLLMS) est crucial pour la compréhension vidéo, la compréhension de l'image haute résolution et les agents multimodaux. Cela implique une série d'optimisations systématiques, notamment l'architecture des modèles, la construction de données et la stratégie de formation, en particulier en résolvant des défis tels que Textit {Performances dégradées avec plus d'images} et Textit {coûts de calcul élevés}. Dans cet article, nous adaptons l'architecture du modèle à un hybride de blocs de mamba et de transformateur, approchons la construction de données avec des dépendances temporelles et spatiales entre plusieurs images et utilisez une stratégie de formation progressive. Le modèle publié textbf {longllava} ~ ( textbf {long} -context textbf {l} arge textbf {l} anguage textbf {a} nd textbf {v} ision textbf {a} ssistant) est le est le SSISTANT) Premier MLLM hybride, qui a réalisé un meilleur équilibre entre l'efficacité et l'efficacité. Longllava obtient non seulement des résultats compétitifs dans divers repères, mais maintient également un débit élevé et une faible consommation de mémoire. Surtout, il pourrait traiter près de mille images sur un seul GPU A100 80 Go, montrant des perspectives d'application prometteuses pour un large éventail de tâches. |
4 septembre 2024 | Vers une vision unifiée de l'apprentissage des préférences pour les modèles de grands langues: une enquête | Les modèles de grands langues (LLM) présentent des capacités remarquablement puissantes. L'un des facteurs cruciaux pour réussir est d'aligner la sortie du LLM avec les préférences humaines. Ce processus d'alignement ne nécessite souvent qu'une petite quantité de données pour améliorer efficacement les performances du LLM. Bien que efficace, la recherche dans ce domaine s'étend sur plusieurs domaines et les méthodes impliquées sont relativement complexes à comprendre. Les relations entre différentes méthodes ont été sous-explorées, ce qui limite le développement de l'alignement des préférences. À la lumière de cela, nous décomposons les stratégies d'alignement populaires existantes en différentes composantes et fournissons un cadre unifié pour étudier les stratégies d'alignement actuelles, établissant ainsi des liens entre eux. Dans cette enquête, nous décomposons toutes les stratégies de l'apprentissage des préférences en quatre composantes: modèle, données, rétroaction et algorithme. Cette vision unifiée offre une compréhension approfondie des algorithmes d'alignement existants et ouvre également des possibilités pour synergiser les forces de différentes stratégies. En outre, nous présentons des exemples de travail détaillés d'algorithmes existants répandus pour faciliter une compréhension complète pour les lecteurs. Enfin, sur la base de notre perspective unifiée, nous explorons les défis et les orientations de recherche futures pour aligner des modèles de grands langues avec les préférences humaines. |
4 septembre 2024 | Construire des agents mathématiques avec un apprentissage des préférences itératives multi-tours | Des études récentes ont montré que les capacités de résolution de problèmes mathématiques des modèles de grande langue (LLMS) peuvent être améliorées en intégrant des outils externes, tels que des interprètes de code, et en utilisant un raisonnement multi-tours de la chaîne de réflexion (COT). Alors que les méthodes actuelles se concentrent sur la génération de données synthétiques et le réglage fin supervisé (SFT), cet article étudie l'approche complémentaire d'apprentissage des préférences directes pour améliorer davantage les performances du modèle. Cependant, les algorithmes d'apprentissage des préférences directes existants sont à l'origine conçus pour la tâche de chat à tour de retour et ne traitent pas entièrement les complexités du raisonnement multi-tour et de l'intégration des outils externes requise pour les tâches de raisonnement mathématique intégrées à l'outil. Pour combler cette lacune, nous introduisons un cadre d'apprentissage de préférence directe multi-tours, adapté à ce contexte, qui exploite les commentaires des interprètes de code et optimise les préférences au niveau de la trajectoire. Ce framework comprend un DPO multi-tours et un KTO multi-tours en tant qu'implémentations spécifiques. L'efficacité de notre cadre est validée par la formation de divers modèles de langues à l'aide d'un ensemble d'invite augmenté des ensembles de données GSM8K et mathématiques. Nos résultats démontrent des améliorations substantielles: les performances d'un modèle GEMMA-1-IT-7B, réglées supervisées, sont passées de 77,5% à 83,9% sur GSM8K et de 46,1% à 51,2% sur les mathématiques. De même, un modèle GEMMA-2-IT-9B est passé de 84,1% à 86,3% sur GSM8K et de 51,0% à 54,5% sur les mathématiques. |
3 septembre 2024 | Olmoe: Modèles de langage ouverts de mélange de réseaux | Nous introduisons Olmoe, un modèle de langue à la pointe de la technologie entièrement ouverte tirant parti du mélange clairsemé des experts (MOE). OLMOE-1B-7B a 7 milliards (b) paramètres mais n'utilise que 1B par jeton d'entrée. Nous l'avons prétraité sur 5 billions de jetons et l'adaptons davantage pour créer l'OLMOE-1B-7B-INSTRUCT. Nos modèles surpassent tous les modèles disponibles avec des paramètres actifs similaires, dépassant même des plus grands comme Llama2-13b-chat et Deepseekmoe-16b. Nous présentons diverses expériences sur la formation MOE, analysons le routage dans notre modèle montrant une spécialisation élevée et tous les aspects open-source de notre travail: poids du modèle, données de formation, code et journaux. |
2 septembre 2024 | GenAgent: Construire des systèmes d'IA collaboratifs avec la génération automatisée du flux de travail - Études de cas sur Comfyui | Une grande partie de la recherche sur l'IA s'est concentrée sur le développement de modèles monolithiques pour maximiser leur intelligence et leur capacité, dans l'objectif principal d'améliorer les performances sur des tâches spécifiques. En revanche, cet article explore une approche alternative: les systèmes d'IA collaboratifs qui utilisent des flux de travail pour intégrer les modèles, les sources de données et les pipelines pour résoudre des tâches complexes et diverses. Nous introduisons GenAgent, un cadre basé sur LLM qui génère automatiquement des flux de travail complexes, offrant une plus grande flexibilité et évolutivité par rapport aux modèles monolithiques. L'innovation principale de Genagent réside dans la représentation des workflows avec du code, ainsi que la construction de workflows avec des agents collaboratifs de manière étape par étape. Nous mettons en œuvre GenAgent sur la plate-forme Comfyui et proposons une nouvelle référence, OpenComfy. Les résultats démontrent que Genagent surpasse les approches de base dans les évaluations au niveau de l'exécution et au niveau des tâches, montrant sa capacité à générer des flux de travail complexes avec une efficacité et une stabilité supérieures. |
2 septembre 2024 | Videollamb: compréhension vidéo à long contexte avec des ponts de mémoire récurrents | Les progrès récents dans les modèles vidéo à grande échelle ont montré un potentiel significatif de planification en temps réel et d'interactions détaillées. Cependant, leurs demandes de calcul élevées et la rareté des ensembles de données annotés limitent leur praticité pour les chercheurs universitaires. Dans ce travail, nous introduisons Videollamb, un nouveau cadre qui utilise des jetons de mémoire temporelle dans les couches de pont pour permettre le codage de séquences vidéo entières aux côtés de données visuelles historiques, préservant efficacement la continuité sémantique et améliorant les performances du modèle à travers diverses tâches. Cette approche comprend des jetons de mémoire récurrents et un algorithme de scénario, qui segmente les vidéos dans des unités sémantiques indépendantes pour préserver l'intégrité sémantique. Empiriquement, Videollamb dépasse considérablement les modèles de langue vidéo existants, démontrant une amélioration de 5,5 points par rapport à ses concurrents sur trois repères vidéo et 2,06 points sur la planification égocentrique. Les résultats complets sur le MVBench montrent que Videollamb-7b obtient des résultats nettement meilleurs que les modèles 7B précédents de même LLM. Remarquablement, il maintient des performances robustes en tant que pllava même si la longueur de la vidéo augmente jusqu'à 8 fois. En outre, les résultats de la récupération de cadre sur notre aiguille spécialisée dans une référence de back de foin vidéo (NEAVH) valident davantage les prouesses de Videollamb en identifiant avec précision des cadres spécifiques dans de longues vidéos. Notre algorithme de scénario permet également la génération de légendes vidéo en streaming directement, sans nécessiter une formation supplémentaire. En termes d'efficacité, Videollamb, formé sur 16 images, prend en charge jusqu'à 320 images sur un seul GPU NVIDIA A100 avec une mise à l'échelle de la mémoire GPU linéaire, assurant à la fois des performances élevées et des effectifs, établissant ainsi une nouvelle base pour une langue vidéo longue forme longue modèles dans les applications académiques et pratiques. |
1er septembre 2024 | Contextcite: attribuer la génération de modèles au contexte | Comment les modèles de langue utilisent-ils les informations fournies comme contexte lors de la génération d'une réponse? Pouvons-nous déduire si une déclaration générée particulière est réellement fondée dans le contexte, une mauvaise interprétation ou fabriquée? Pour aider à répondre à ces questions, nous introduisons le problème de l'attribution du contexte: l'entraînement des parties du contexte (le cas échéant) qui a conduit un modèle à générer une déclaration particulière. Nous présentons ensuite Contextcite, une méthode simple et évolutive d'attribution de contexte qui peut être appliquée en plus de tout modèle de langue existant. Enfin, nous présentons l'utilité de Contextcite à travers trois applications: (1) aider à vérifier les déclarations générées (2) l'amélioration de la qualité de la réponse en élaguant le contexte et (3) détecter les attaques d'empoisonnement. Nous fournissons du code pour contextcite sur https://github.com/madrylab/context-cite. |
31 août 2024 | LongRecipe: Recette pour une généralisation efficace du contexte long dans les modèles de grands langues | Les modèles de grandes langues (LLM) sont confrontés à des défis importants dans la gestion des tâches de contexte à long terme en raison de leur taille de fenêtre de contexte efficace limitée pendant la pré-formation, ce qui restreint leur capacité à généraliser sur des séquences étendues. Pendant ce temps, l'extension de la fenêtre de contexte dans les LLM par le post-prétraitement est très intensive aux ressources. Pour y remédier, nous introduisons LongRecipe, une stratégie de formation efficace pour étendre la fenêtre de contexte des LLM, y compris l'analyse des jetons percutants, la transformation de l'indice de position et les stratégies d'optimisation de la formation. Il simule les entrées à longue séquence tout en maintenant l'efficacité de la formation et améliore considérablement la compréhension du modèle des dépendances à longue portée. Des expériences sur trois types de LLMS montrent que LongRecipe peut utiliser de longues séquences tout en ne nécessitant que 30% de la taille de la fenêtre du contexte cible et réduit les ressources de formation informatique sur 85% par rapport à la formation complète des séquences. De plus, LongRecipe préserve également les capacités de LLM originales dans les tâches générales. En fin de compte, nous pouvons étendre la fenêtre de contexte efficace des LLMS open source de 8k à 128k, atteignant des performances près de GPT-4 avec une seule journée de formation dédiée en utilisant un seul GPU avec une mémoire 80g. Notre code est publié sur https://github.com/zhiyuanhubj/longrecipe. |
29 août 2024 | Mini-OMni: les modèles de langue peuvent entendre, parler tout en pensant en streaming | Les progrès récents dans les modèles linguistiques ont réalisé des progrès significatifs. Le GPT-4O, en tant que nouvelle étape, a permis des conversations en temps réel avec les humains, démontrant la maîtrise naturelle de la quasi-humaine. Une telle interaction humaine-ordinateur nécessite des modèles avec la capacité d'effectuer un raisonnement directement avec la modalité audio et de générer une sortie en streaming. Cependant, cela reste hors de portée des modèles académiques actuels, car ils dépendent généralement de systèmes TTS supplémentaires pour la synthèse de la parole, entraînant une latence indésirable. Cet article présente le Mini-OMNI, un modèle conversationnel de bout en bout basé sur l'audio, capable d'une interaction vocale en temps réel. Pour atteindre cette capacité, nous proposons une méthode de génération de discours inscrite au texte, ainsi que des stratégies par lots parallèles pendant l'inférence pour augmenter davantage les performances. Notre méthode aide également à conserver les capacités linguistiques du modèle d'origine avec une dégradation minimale, permettant d'autres travaux pour établir des capacités d'interaction en temps réel. Nous appelons cette méthode de formation "tout modèle peut parler". Nous introduisons également l'ensemble de données VoiceSSistant-400K à des modèles affinés optimisés pour la sortie de la parole. To our best knowledge, Mini-Omni is the first fully end-to-end, open-source model for real-time speech interaction, offering valuable potential for future research. |
29th August 2024 | Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever | Multi-vector dense models, such as ColBERT, have proven highly effective in information retrieval. ColBERT's late interaction scoring approximates the joint query-document attention seen in cross-encoders while maintaining inference efficiency closer to traditional dense retrieval models, thanks to its bi-encoder architecture and recent optimizations in indexing and search. In this work we propose a number of incremental improvements to the ColBERT model architecture and training pipeline, using methods shown to work in the more mature single-vector embedding model training paradigm, particularly those that apply to heterogeneous multilingual data or boost efficiency with little tradeoff . Our new model, Jina-ColBERT-v2, demonstrates strong performance across a range of English and multilingual retrieval tasks. |
28th August 2024 | CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization | Recent advances in text-to-image personalization have enabled high-quality and controllable image synthesis for user-provided concepts. However, existing methods still struggle to balance identity preservation with text alignment. Our approach is based on the fact that generating prompt-aligned images requires a precise semantic understanding of the prompt, which involves accurately processing the interactions between the new concept and its surrounding context tokens within the CLIP text encoder. To address this, we aim to embed the new concept properly into the input embedding space of the text encoder, allowing for seamless integration with existing tokens. We introduce Context Regularization (CoRe), which enhances the learning of the new concept's text embedding by regularizing its context tokens in the prompt. This is based on the insight that appropriate output vectors of the text encoder for the context tokens can only be achieved if the new concept's text embedding is correctly learned. CoRe can be applied to arbitrary prompts without requiring the generation of corresponding images, thus improving the generalization of the learned text embedding. Additionally, CoRe can serve as a test-time optimization technique to further enhance the generations for specific prompts. Comprehensive experiments demonstrate that our method outperforms several baseline methods in both identity preservation and text alignment. Code will be made publicly available. |
28th August 2024 | SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding | Scientific literature understanding is crucial for extracting targeted information and garnering insights, thereby significantly advancing scientific discovery. Despite the remarkable success of Large Language Models (LLMs), they face challenges in scientific literature understanding, primarily due to (1) a lack of scientific knowledge and (2) unfamiliarity with specialized scientific tasks. To develop an LLM specialized in scientific literature understanding, we propose a hybrid strategy that integrates continual pre-training (CPT) and supervised fine-tuning (SFT), to simultaneously infuse scientific domain knowledge and enhance instruction-following capabilities for domain-specific tasks.cIn this process, we identify two key challenges: (1) constructing high-quality CPT corpora, and (2) generating diverse SFT instructions. We address these challenges through a meticulous pipeline, including PDF text extraction, parsing content error correction, quality filtering, and synthetic instruction creation. Applying this strategy, we present a suite of LLMs: SciLitLLM, specialized in scientific literature understanding. These models demonstrate promising performance on scientific literature understanding benchmarks. Our contributions are threefold: (1) We present an effective framework that integrates CPT and SFT to adapt LLMs to scientific literature understanding, which can also be easily adapted to other domains. (2) We propose an LLM-based synthesis method to generate diverse and high-quality scientific instructions, resulting in a new instruction set -- SciLitIns -- for supervised fine-tuning in less-represented scientific domains. (3) SciLitLLM achieves promising performance improvements on scientific literature understanding benchmarks. |
Join 1000+ students on this 10-week adventure as we delve into the application of LLMs across a variety of use cases
?️*Week 1 [Jan 15 2024] *: Practical Introduction to LLMs
?️*Week 2 [Jan 22 2024] *: Prompting and Prompt Engineering
?️*Week 3 [Jan 29 2024] *: LLM Fine-tuning
?️*Week 4 [Feb 5 2024] *: RAG (Retrieval-Augmented Generation)
?️*Week 5 [ Feb 12 2024] *: Tools for building LLM Apps
?️*Week 6 [Feb 19 2024] *: Evaluation Techniques
?️*Week 7 [Feb 26 2024] *: Building Your Own LLM Application
?️*Week 8 [March 4 2024] *: Advanced Features and Deployment
?️*Week 9 [March 11 2024] *: Challenges with LLMs
?️*Week 10 [March 18 2024] *: Emerging Research Trends
?️*Week 11 *Bonus* [March 25 2024] *: Foundations
Large Language Models by ETH Zurich
Understanding Large Language Models by Princeton
Transformers course by Huggingface
NLP course by Huggingface
CS324 - Large Language Models by Stanford
Generative AI with Large Language Models by Coursera
Introduction to Generative AI by Coursera
Generative AI Fundamentals by Google Cloud
Introduction to Large Language Models by Google Cloud
Introduction to Generative AI by Google Cloud
Generative AI Concepts by DataCamp (Daniel Tedesco Data Lead @ Google)
1 Hour Introduction to LLM (Large Language Models) by WeCloudData
LLM Foundation Models from the Ground Up | Primer by Databricks
Generative AI Explained by Nvidia
Transformer Models and BERT Model by Google Cloud
Generative AI Learning Plan for Decision Makers by AWS
Introduction to Responsible AI by Google Cloud
Fundamentals of Generative AI by Microsoft Azure
Generative AI for Beginners by Microsoft
ChatGPT for Beginners: The Ultimate Use Cases for Everyone by Udemy
[1hr Talk] Intro to Large Language Models by Andrej Karpathy
ChatGPT for Everyone by Learn Prompting
Large Language Models (LLMs) (In English) by Kshitiz Verma (JK Lakshmipat University, Jaipur, India)
LLMOps: Building Real-World Applications With Large Language Models by Udacity
Full Stack LLM Bootcamp by FSDL
Generative AI for beginners by Microsoft
Large Language Models: Application through Production by Databricks
Generative AI Foundations by AWS
Introduction to Generative AI Community Course by ineuron
LLM University by Cohere
LLM Learning Lab by Lightning AI
LangChain for LLM Application Development by Deeplearning.AI
LLMOps by DeepLearning.AI
Automated Testing for LLMOps by DeepLearning.AI
Building Generative AI Applications Using Amazon Bedrock by AWS
Efficiently Serving LLMs by DeepLearning.AI
Building Systems with the ChatGPT API by DeepLearning.AI
Serverless LLM apps with Amazon Bedrock by DeepLearning.AI
Building Applications with Vector Databases by DeepLearning.AI
Automated Testing for LLMOps by DeepLearning.AI
Build LLM Apps with LangChain.js by DeepLearning.AI
Advanced Retrieval for AI with Chroma by DeepLearning.AI
Operationalizing LLMs on Azure by Coursera
Generative AI Full Course – Gemini Pro, OpenAI, Llama, Langchain, Pinecone, Vector Databases & More by freeCodeCamp.org
Training & Fine-Tuning LLMs for Production by Activeloop
LangChain & Vector Databases in Production by Activeloop
Reinforcement Learning from Human Feedback by DeepLearning.AI
Building Applications with Vector Databases by DeepLearning.AI
Finetuning Large Language Models by Deeplearning.AI
LangChain: Chat with Your Data by Deeplearning.AI
Building Systems with the ChatGPT API by Deeplearning.AI
Prompt Engineering with Llama 2 by Deeplearning.AI
Building Applications with Vector Databases by Deeplearning.AI
ChatGPT Prompt Engineering for Developers by Deeplearning.AI
Advanced RAG Orchestration series by LlamaIndex
Prompt Engineering Specialization by Coursera
Augment your LLM Using Retrieval Augmented Generation by Nvidia
Knowledge Graphs for RAG by Deeplearning.AI
Open Source Models with Hugging Face by Deeplearning.AI
Vector Databases: from Embeddings to Applications by Deeplearning.AI
Understanding and Applying Text Embeddings by Deeplearning.AI
JavaScript RAG Web Apps with LlamaIndex by Deeplearning.AI
Quantization Fundamentals with Hugging Face by Deeplearning.AI
Preprocessing Unstructured Data for LLM Applications by Deeplearning.AI
Retrieval Augmented Generation for Production with LangChain & LlamaIndex by Activeloop
Quantization in Depth by Deeplearning.AI
If you want to add to the repository or find any issues, please feel free to raise a PR and ensure correct placement within the relevant section or category.
To cite this guide, use the below format:
@article{areganti_generative_ai_guide,
author = {Reganti, Aishwarya Naresh},
journal = {https://github.com/aishwaryanr/awesome-generative-ai-resources},
month = {01},
title = {{Generative AI Guide}},
year = {2024}
}
[MIT License]