A IA generativa está passando por um rápido crescimento e este repositório serve como um centro abrangente para atualizações sobre pesquisas de IA generativa, materiais de entrevistas, cadernos e muito mais!
Explore os seguintes recursos:
Estaremos atualizando este repositório regularmente, então fique atento às últimas adições!
Feliz aprendizado!
*Atualizado no final de cada mês
Data | Título | Resumo | Tópicos |
---|---|---|---|
31 de maio de 2024 | LLMs alcançam desempenho humano adulto em tarefas de teoria da mente de ordem superior | Este artigo examina até que ponto os grandes modelos de linguagem (LLMs) desenvolveram uma teoria da mente de ordem superior (ToM); a capacidade humana de raciocinar sobre múltiplos estados mentais e emocionais de maneira recursiva (por exemplo, acho que você acredita que ela sabe). Este artigo baseia-se em trabalhos anteriores, introduzindo um conjunto de testes manuscritos – Perguntas e Respostas sobre a Teoria da Mente de Várias Ordens – e usando-o para comparar o desempenho de cinco LLMs com um benchmark humano adulto recém-coletado. Descobrimos que GPT-4 e Flan-PaLM atingem desempenho de nível adulto e quase adulto em tarefas ToM em geral, e que GPT-4 excede o desempenho adulto em inferências de 6ª ordem. Nossos resultados sugerem que existe uma interação entre o tamanho do modelo e o ajuste fino para a realização de habilidades de ToM, e que os LLMs com melhor desempenho desenvolveram uma capacidade generalizada para ToM. Dado o papel que o ToM de ordem superior desempenha numa ampla gama de comportamentos humanos cooperativos e competitivos, estas descobertas têm implicações significativas para aplicações LLM voltadas para o utilizador. | Teoria da Mente |
30 de maio de 2024 | JINA CLIP: Seu modelo CLIP também é seu recuperador de texto | O pré-treinamento contrastivo de linguagem-imagem (CLIP) é amplamente usado para treinar modelos para alinhar imagens e textos em um espaço de incorporação comum, mapeando-os para vetores de tamanho fixo. Esses modelos são fundamentais para a recuperação multimodal de informações e tarefas relacionadas. No entanto, os modelos CLIP geralmente apresentam desempenho inferior em tarefas somente de texto em comparação com modelos de texto especializados. Isso cria ineficiências para sistemas de recuperação de informações que mantêm incorporações e modelos separados para tarefas somente de texto e multimodais. Propomos um novo método de treinamento contrastivo multitarefa para resolver esse problema, que usamos para treinar o modelo jina-clip-v1 para alcançar o desempenho de última geração em tarefas de recuperação de texto-imagem e texto-texto . | Modelos Multimodais |
30 de maio de 2024 | Parrot: Serviço eficiente de aplicativos baseados em LLM com variável semântica | A ascensão de grandes modelos de linguagem (LLMs) possibilitou aplicativos baseados em LLM (também conhecidos como agentes ou copilotos de IA), um novo paradigma de software que combina a força do LLM e do software convencional. Diversos aplicativos LLM de diferentes locatários podem projetar fluxos de trabalho complexos usando várias solicitações LLM para realizar uma tarefa. No entanto, eles precisam usar a API simplificada em nível de solicitação fornecida pelos serviços LLM públicos atuais, perdendo informações essenciais em nível de aplicativo. Os serviços públicos de LLM precisam otimizar cegamente as solicitações individuais de LLM, levando a um desempenho abaixo do ideal de ponta a ponta dos aplicativos LLM. Este artigo apresenta o Parrot, um sistema de serviço LLM que se concentra na experiência ponta a ponta de aplicativos baseados em LLM. Parrot propõe Variável Semântica, uma abstração unificada para expor o conhecimento em nível de aplicação a serviços públicos LLM. Uma variável semântica anota uma variável de entrada/saída no prompt de uma solicitação e cria o pipeline de dados ao conectar várias solicitações LLM, fornecendo uma maneira natural de programar aplicativos LLM. A exposição de variáveis semânticas ao serviço LLM público permite realizar análises convencionais de fluxo de dados para descobrir a correlação entre várias solicitações LLM. Essa correlação abre um novo espaço de otimização para o desempenho ponta a ponta de aplicativos baseados em LLM. Avaliações extensivas demonstram que o Parrot pode alcançar uma melhoria de ordem de grandeza para casos de uso populares e práticos de aplicações LLM | Agentes LLM |
30 de maio de 2024 | Perplexo com a perplexidade: remoção de dados baseada em perplexidade com pequenos modelos de referência | Neste trabalho, investigamos se modelos de linguagem pequena podem determinar subconjuntos de alta qualidade de conjuntos de dados de texto em grande escala que melhoram o desempenho de modelos de linguagem maior. Embora o trabalho existente tenha mostrado que a poda baseada na perplexidade de um modelo maior pode produzir dados de alta qualidade, investigamos se modelos menores podem ser usados para poda baseada em perplexidade e como a poda é afetada pela composição do domínio dos dados que estão sendo podados. Demonstramos que, para múltiplas composições de conjuntos de dados, a poda de dados de pré-treinamento baseada em perplexidade pode melhorar significativamente o desempenho da tarefa downstream: a poda baseada em perplexidades calculadas com um modelo de 125 milhões de parâmetros melhora o desempenho médio em tarefas downstream de um modelo de 3 bilhões de parâmetros em até 2,04 e alcança uma redução de até 1,45x nas etapas de pré-treinamento para atingir um desempenho basal proporcional. Além disso, demonstramos que essa poda de dados baseada em perplexidade também produz ganhos de desempenho downstream nos regimes sobretreinados e com restrição de dados. | Modelos de linguagem pequena |
30 de maio de 2024 | GNN-RAG: Recuperação Neural de Gráfico para Raciocínio de Modelos de Linguagem Grande | Os Gráficos de Conhecimento (KGs) representam o conhecimento factual criado pelo homem na forma de trigêmeos (cabeça, relação, cauda), que coletivamente formam um gráfico. Question Answering over KGs (KGQA) é a tarefa de responder perguntas naturais fundamentando o raciocínio nas informações fornecidas pelo KG. Large Language Models (LLMs) são os modelos de última geração para tarefas de controle de qualidade devido à sua notável capacidade de compreender a linguagem natural. Por outro lado, Redes Neurais de Grafos (GNNs) têm sido amplamente utilizadas para KGQA, pois podem lidar com informações complexas de gráficos armazenadas no KG. Neste trabalho, apresentamos o GNN-RAG, um novo método para combinar as habilidades de compreensão de linguagem dos LLMs com as habilidades de raciocínio dos GNNs em um estilo de geração aumentada por recuperação (RAG). Primeiro, um GNN raciocina sobre um subgrafo KG denso para recuperar candidatos a respostas para uma determinada pergunta. Segundo, os caminhos mais curtos no KG que conectam entidades de pergunta e candidatos a respostas são extraídos para representar os caminhos de raciocínio do KG. Os caminhos extraídos são verbalizados e dados como entrada para o raciocínio LLM com RAG. Em nossa estrutura GNN-RAG, o GNN atua como um raciocinador denso de subgráficos para extrair informações úteis do gráfico, enquanto o LLM aproveita sua capacidade de processamento de linguagem natural para o KGQA final. Além disso, desenvolvemos uma técnica de aumento de recuperação (RA) para aumentar ainda mais o desempenho do KGQA com GNN-RAG. Os resultados experimentais mostram que o GNN-RAG atinge desempenho de última geração em dois benchmarks KGQA amplamente utilizados (WebQSP e CWQ), superando ou igualando o desempenho do GPT-4 com um LLM sintonizado 7B. Além disso, o GNN-RAG se destaca em questões multi-hop e multi-entidade, superando as abordagens concorrentes em 8,9–15,5% pontos na resposta F1. Fornecemos o código e os resultados do KGQA em https://github.com/cmavro/GNN-RAG. | RAG em gráficos de conhecimento |
29 de maio de 2024 | Modelos de linguagem autoexploráveis: elicitação de preferências ativas para alinhamento online | A otimização de preferências, particularmente por meio do Aprendizado por Reforço a partir do Feedback Humano (RLHF), alcançou um sucesso significativo no alinhamento de Grandes Modelos de Linguagem (LLMs) para aderir às intenções humanas. Ao contrário do alinhamento offline com um conjunto de dados fixo, a coleta de feedback online de humanos ou IA em gerações de modelos normalmente leva a modelos de recompensa mais capazes e LLMs mais bem alinhados por meio de um processo iterativo. No entanto, alcançar um modelo de recompensa globalmente preciso requer uma exploração sistemática para gerar respostas diversas que abranjam o vasto espaço da linguagem natural. A amostragem aleatória de LLMs padrão que maximizam a recompensa por si só é insuficiente para cumprir este requisito. Para resolver esta questão, propomos um objetivo de dois níveis, otimistamente inclinado para respostas potencialmente de alta recompensa para explorar ativamente regiões fora de distribuição. Ao resolver o problema de nível interno com a função de recompensa reparametrizada, o algoritmo resultante, denominado Modelos de Linguagem Autoexploráveis (SELM), elimina a necessidade de um RM separado e atualiza iterativamente o LLM com um objetivo direto. Comparado à Otimização de Preferência Direta (DPO), o objetivo SELM reduz o favor indiscriminado de extrapolações invisíveis e aumenta a eficiência da exploração. Nossos resultados experimentais demonstram que, quando ajustado nos modelos Zephyr-7B-SFT e Llama-3-8B-Instruct, o SELM aumenta significativamente o desempenho em benchmarks de instrução, como MT-Bench e AlpacaEval 2.0, bem como vários benchmarks acadêmicos padrão em diferentes configurações. . Nosso código e modelos estão disponíveis em https://github.com/shenao-zhang/SELM. | Alinhamento, otimização de preferências |
28 de maio de 2024 | OpenRLHF: uma estrutura RLHF fácil de usar, escalável e de alto desempenho | À medida que os grandes modelos de linguagem (LLMs) continuam a crescer por meio de leis de escala, a aprendizagem por reforço a partir do feedback humano (RLHF) ganhou atenção significativa devido ao seu excelente desempenho. No entanto, ao contrário do pré-treinamento ou do ajuste fino de um único modelo, o escalonamento da aprendizagem por reforço a partir de feedback humano (RLHF) para o treinamento de grandes modelos de linguagem apresenta desafios de coordenação em quatro modelos. Apresentamos OpenRLHF, uma estrutura de código aberto que permite escalonamento RLHF eficiente. Ao contrário das estruturas RLHF existentes que colocam quatro modelos nas mesmas GPUs, o OpenRLHF redesenha o agendamento para os modelos além de parâmetros de 70B usando Ray, vLLM e DeepSpeed, aproveitando melhor utilização de recursos e diversas abordagens de treinamento. Integrando-se perfeitamente ao Hugging Face, o OpenRLHF fornece uma solução pronta para uso com algoritmos otimizados e scripts de inicialização, o que garante facilidade de uso. OpenRLHF implementa RLHF, DPO, amostragem de rejeição e outras técnicas de alinhamento. Capacitando o desenvolvimento LLM de última geração, o código do OpenRLHF está disponível em https://github.com/OpenLLMAI/OpenRLHF. | RLHF, kit de ferramentas |
28 de maio de 2024 | LLAMA-NAS: BUSCA EFICIENTE DE ARQUITETURA NEURAL PARA MODELOS DE GRANDES LÍNGUAS | As habilidades dos grandes modelos modernos de linguagem (LLMs) na resolução de processamento de linguagem natural, raciocínio complexo, análise de sentimento e outras tarefas têm sido extraordinárias, o que levou à sua ampla adoção. Infelizmente, essas habilidades acarretam custos computacionais e de memória muito altos, o que impede o uso de LLMs na maioria das plataformas de hardware. Para mitigar isso, propomos um método eficaz para encontrar arquiteturas de rede ideais de Pareto baseadas em LLaMA2-7B usando NAS one-shot. Em particular, ajustamos o LLaMA2-7B apenas uma vez e depois aplicamos a pesquisa baseada em algoritmo genético para encontrar arquiteturas de rede menores e menos complexas computacionalmente. Mostramos que, para certas tarefas de benchmark padrão, a rede LLaMA2-7B pré-treinada é desnecessariamente grande e complexa. Mais especificamente, demonstramos uma redução de 1,5x no tamanho do modelo e uma aceleração de 1,3x no rendimento para determinadas tarefas com queda insignificante na precisão. Além de encontrar arquiteturas de rede menores e de maior desempenho, nosso método faz isso de forma mais eficaz e eficiente do que certas técnicas de poda ou esparsificação. Finalmente, demonstramos como a quantização é complementar ao nosso método e que o tamanho e a complexidade das redes que encontramos podem ser diminuídos ainda mais usando a quantização. Acreditamos que nosso trabalho fornece uma maneira de criar LLMs automaticamente que podem ser usados em plataformas de hardware mais baratas e mais prontamente disponíveis. | Pesquisa de arquitetura neural, redução de tamanho de modelo |
28 de maio de 2024 | Não se esqueça de se conectar! Melhorando o RAG com reclassificação baseada em gráfico | A Geração Aumentada de Recuperação (RAG) melhorou muito o desempenho das respostas do Modelo de Linguagem Grande (LLM), fundamentando a geração no contexto de documentos existentes. Esses sistemas funcionam bem quando os documentos são claramente relevantes para o contexto de uma questão. Mas e quando um documento contém informações parciais ou conexões menos óbvias com o contexto? E como deveríamos raciocinar sobre as conexões entre documentos? Neste trabalho, buscamos responder a essas duas questões centrais sobre a geração de RAG. Apresentamos o G-RAG, um reclassificador baseado em redes neurais de grafos (GNNs) entre o recuperador e o leitor no RAG. Nosso método combina conexões entre documentos e informações semânticas (por meio de gráficos de representação de significado abstrato) para fornecer um classificador informado pelo contexto para RAG. O G-RAG supera as abordagens de última geração, ao mesmo tempo em que ocupa menos espaço computacional. Além disso, avaliamos o desempenho do PaLM 2 como reclassificador e descobrimos que ele apresenta desempenho significativamente inferior ao G-RAG. Este resultado enfatiza a importância da reclassificação do RAG mesmo quando se utilizam modelos de linguagem grande. | RAG para raciocínio |
27 de maio de 2024 | Meteor: Traversal of Rationale baseado em Mamba para grandes modelos de linguagem e visão | O rápido desenvolvimento de grandes modelos de linguagem e visão (LLVMs) foi impulsionado por avanços no ajuste de instruções visuais. Recentemente, LLVMs de código aberto selecionaram conjuntos de dados de ajuste de instruções visuais de alta qualidade e utilizaram codificadores de visão adicionais ou vários modelos de visão computacional para reduzir a lacuna de desempenho com poderosos LLVMs de código fechado. Esses avanços são atribuídos a informações multifacetadas necessárias para diversas capacidades, incluindo compreensão fundamental de imagens, conhecimento do mundo real sobre conceitos de senso comum e não-objetos (por exemplo, gráficos, diagramas, símbolos, sinais e problemas matemáticos) e passo a passo. procedimentos passo a passo para resolver questões complexas. Com base nas informações multifacetadas, apresentamos um novo LLVM eficiente, travessia de lógicas baseada em Mamba (Meteoro), que aproveita a lógica multifacetada para melhorar a compreensão e as capacidades de resposta. Para incorporar lógicas extensas contendo informações abundantes, empregamos a arquitetura Mamba, capaz de processar dados sequenciais com complexidade de tempo linear. Introduzimos um novo conceito de passagem de raciocínio que facilita a incorporação eficiente de raciocínio. Posteriormente, o modelo de linguagem multimodal (MLM) de backbone é treinado para gerar respostas com o auxílio da lógica. Através dessas etapas, o Meteor alcança melhorias significativas no desempenho da linguagem de visão em vários benchmarks de avaliação que exigem capacidades diversas, sem aumentar o tamanho do modelo ou empregar codificadores de visão e modelos de visão computacional adicionais. O código está disponível em https://github.com/ByungKwanLee/Meteor. | Modelos de Espaço de Estados, Modelos Multimodais |
27 de maio de 2024 | Uma introdução à modelagem de linguagem de visão | Seguindo a recente popularidade dos Large Language Models (LLMs), várias tentativas foram feitas para estendê-los ao domínio visual. Desde ter um assistente visual que pode nos guiar por ambientes desconhecidos até modelos generativos que produzem imagens usando apenas uma descrição de texto de alto nível, as aplicações do modelo de linguagem de visão (VLM) terão um impacto significativo em nosso relacionamento com a tecnologia. No entanto, existem muitos desafios que precisam ser enfrentados para melhorar a confiabilidade desses modelos. Embora a linguagem seja discreta, a visão evolui num espaço dimensional muito mais elevado, no qual os conceitos nem sempre podem ser facilmente discretizados. Para entender melhor a mecânica por trás do mapeamento da visão para a linguagem, apresentamos esta introdução aos VLMs que esperamos que ajude qualquer pessoa que queira entrar na área. Primeiro, apresentamos o que são VLMs, como funcionam e como treiná-los. Em seguida, apresentamos e discutimos abordagens para avaliar VLMs. Embora este trabalho se concentre principalmente no mapeamento de imagens para linguagem, também discutimos a extensão de VLMs para vídeos. | Modelos Multimodais, Pesquisa |
27 de maio de 2024 | Modelos Multimodais Matryoshka | Grandes Modelos Multimodais (LMMs), como o LLaVA, têm apresentado forte desempenho no raciocínio visual-linguístico. Esses modelos primeiro incorporam imagens em um grande número fixo de tokens visuais e depois os alimentam em um Large Language Model (LLM). Porém, esse design causa um número excessivo de tokens para cenários visuais densos, como imagens e vídeos de alta resolução, levando a uma grande ineficiência. Embora existam métodos de remoção e fusão de tokens, eles produzem uma saída de comprimento único para cada imagem e não podem permitir flexibilidade na negociação entre densidade de informações e eficiência. Inspirados no conceito de Bonecas Matryoshka, propomos M3: Modelos Multimodais Matryoshka, que aprendem a representar conteúdo visual como conjuntos aninhados de tokens visuais que capturam informações em múltiplas granularidades grossas a finas. Nossa abordagem oferece vários benefícios exclusivos para LMMs: (1) É possível controlar explicitamente a granularidade visual por instância de teste durante a inferência, por exemplo, ajustando o número de tokens usados para representar uma imagem com base na complexidade ou simplicidade prevista do conteúdo; (2) M3 fornece uma estrutura para analisar a granularidade necessária para conjuntos de dados existentes, onde descobrimos que os benchmarks do estilo COCO precisam apenas de cerca de 9 tokens visuais para obter uma precisão semelhante à do uso de todos os 576 tokens; (3) Nossa abordagem fornece uma base para explorar a melhor compensação entre desempenho e comprimento do token visual no nível da amostra, onde nossa investigação revela que existe uma grande lacuna entre o limite superior do oráculo e as representações atuais em escala fixa. | Modelos Multimodais |
27 de maio de 2024 | Trans-LoRA: em direção ao ajuste fino eficiente de parâmetros transferíveis sem dados | Adaptadores de baixa classificação (LoRA) e suas variantes são técnicas populares de ajuste fino com eficiência de parâmetros (PEFT) que se aproximam do desempenho de ajuste fino do modelo completo, exigindo apenas um pequeno número de parâmetros adicionais. Esses parâmetros LoRA adicionais são específicos do modelo básico que está sendo adaptado. Quando o modelo base precisa ser descontinuado e substituído por um novo, todos os módulos LoRA associados precisam ser treinados novamente. Esse novo treinamento requer acesso aos dados usados para treinar o LoRA para o modelo base original. Isto é especialmente problemático para aplicações comerciais em nuvem, onde os módulos LoRA e os modelos básicos são hospedados por provedores de serviços que podem não ter permissão para hospedar dados proprietários de tarefas do cliente. Para enfrentar esse desafio, propomos o Trans-LoRA - um novo método para transferência de LoRAs sem perdas e quase sem dados entre modelos básicos. Nossa abordagem depende de dados sintéticos para transferir módulos LoRA. Usando grandes modelos de linguagem, projetamos um gerador de dados sintéticos para aproximar o processo de geração de dados do subconjunto de dados da tarefa observada. O treinamento no conjunto de dados sintético resultante transfere módulos LoRA para novos modelos. Mostramos a eficácia de nossa abordagem usando as famílias de modelos LLama e Gemma. Nossa abordagem alcança transferência LoRA sem perdas (principalmente melhorada) entre modelos dentro e entre diferentes famílias de modelos básicos, e até mesmo entre diferentes métodos PEFT, em uma ampla variedade de tarefas. | Métodos PEFT, ajuste fino |
26 de maio de 2024 | Otimização de preferência de reprodução automática para alinhamento de modelo de idioma | As abordagens tradicionais de aprendizagem por reforço a partir de feedback humano (RLHF), que dependem de modelos paramétricos como o modelo Bradley-Terry, são insuficientes para capturar a intransitividade e a irracionalidade nas preferências humanas. Avanços recentes sugerem que trabalhar diretamente com probabilidades de preferência pode produzir um reflexo mais preciso das preferências humanas, permitindo um alinhamento mais flexível e preciso do modelo de linguagem. Neste artigo, propomos um método baseado em autojogo para alinhamento de modelos de linguagem, que trata o problema como um jogo de soma constante para dois jogadores que visa identificar a política de equilíbrio de Nash. Nossa abordagem, denominada Self-Play Preference Optimization (SPPO), aproxima o equilíbrio de Nash por meio de atualizações iterativas de políticas e desfruta de uma garantia de convergência teórica. Nosso método pode efetivamente aumentar a probabilidade logarítmica da resposta escolhida e diminuir a da resposta rejeitada, o que não pode ser alcançado trivialmente por perda simétrica de pares, como Otimização de Preferência Direta (DPO) e Otimização de Preferência de Identidade (IPO). Em nossos experimentos, usando apenas 60 mil prompts (sem respostas) do conjunto de dados UltraFeedback e sem qualquer aumento de prompt, aproveitando um modelo de preferência pré-treinado PairRM com apenas 0,4B de parâmetros, o SPPO pode obter um modelo a partir do ajuste fino do Mistral-7B- Instruct-v0.2 que atinge a taxa de vitória controlada por comprimento de última geração de 28,53% contra GPT-4-Turbo no AlpacaEval 2.0. Ele também supera o DPO e IPO (iterativos) no MT-Bench e no Open LLM Leaderboard. Notavelmente, o forte desempenho do SPPO é alcançado sem supervisão externa adicional (por exemplo, respostas, preferências, etc.) do GPT-4 ou de outros modelos de linguagem mais fortes. | Alinhamento, Otimização |
23 de maio de 2024 | Nem todos os recursos do modelo de linguagem são lineares | Trabalhos recentes propuseram a hipótese da representação linear: que os modelos de linguagem realizam computação manipulando representações unidimensionais de conceitos (“características”) no espaço de ativação. Em contraste, exploramos se algumas representações de modelos de linguagem podem ser inerentemente multidimensionais. Começamos desenvolvendo uma definição rigorosa de características multidimensionais irredutíveis com base no fato de elas poderem ser decompostas em características independentes ou não-co-ocorrentes de dimensões inferiores. Motivados por essas definições, projetamos um método escalável que usa autoencoders esparsos para encontrar automaticamente recursos multidimensionais em GPT-2 e Mistral 7B. Esses recursos descobertos automaticamente incluem exemplos surpreendentemente interpretáveis, por exemplo, recursos circulares que representam dias da semana e meses do ano. Identificamos tarefas onde esses círculos exatos são usados para resolver problemas computacionais envolvendo aritmética modular em dias da semana e meses do ano. Finalmente, fornecemos evidências de que essas características circulares são de fato a unidade fundamental de computação nessas tarefas com experimentos de intervenção no Mistral 7B e Llama 3 8B, e encontramos outras representações circulares dividindo os estados ocultos para essas tarefas em componentes interpretáveis. | Análise de Representação Linear |
23 de maio de 2024 | AlignGPT: modelos multimodais de grandes linguagens com capacidade de alinhamento adaptativo | Modelos Multimodais de Grandes Linguagens (MLLMs) são amplamente considerados cruciais na exploração da Inteligência Geral Artificial (AGI). O núcleo dos MLLMs reside na sua capacidade de alcançar o alinhamento intermodal. Para atingir este objetivo, os MLLMs atuais normalmente seguem um paradigma de treinamento de duas fases: a fase de pré-treinamento e a fase de ajuste de instrução. Apesar do seu sucesso, existem deficiências na modelagem das capacidades de alinhamento dentro destes modelos. Em primeiro lugar, durante a fase de pré-treinamento, o modelo geralmente assume que todos os pares imagem-texto estão uniformemente alinhados, mas na verdade o grau de alinhamento entre os diferentes pares imagem-texto é inconsistente. Em segundo lugar, as instruções usadas atualmente para o ajuste fino incorporam uma variedade de tarefas; instruções de tarefas diferentes geralmente exigem diferentes níveis de capacidades de alinhamento, mas os MLLMs anteriores ignoram essas necessidades diferenciadas de alinhamento. Para resolver essas questões, propomos um novo modelo multimodal de grande linguagem, AlignGPT. Na fase de pré-treinamento, em vez de tratar todos os pares imagem-texto igualmente, atribuímos diferentes níveis de capacidades de alinhamento a diferentes pares imagem-texto. Então, na fase de ajuste de instruções, combinamos de forma adaptativa esses diferentes níveis de capacidades de alinhamento para atender às necessidades de alinhamento dinâmico de diferentes instruções. Extensos resultados experimentais mostram que nosso modelo atinge desempenho competitivo em 12 benchmarks. | Alinhamento, Modelo Multimodal |
23 de maio de 2024 | HippoRAG: memória de longo prazo inspirada neurobiologicamente para grandes modelos de linguagem | Para prosperar em ambientes naturais hostis e em constante mudança, os cérebros dos mamíferos evoluíram para armazenar grandes quantidades de conhecimento sobre o mundo e integrar continuamente novas informações, evitando o esquecimento catastrófico. Apesar das conquistas impressionantes, os grandes modelos de linguagem (LLMs), mesmo com geração aumentada recuperada (RAG), ainda lutam para integrar de forma eficiente e eficaz uma grande quantidade de novas experiências após o pré-treinamento. Neste trabalho, apresentamos o HippoRAG, uma nova estrutura de recuperação inspirada na teoria de indexação do hipocampo da memória humana de longo prazo para permitir uma integração de conhecimento mais profunda e eficiente sobre novas experiências. HippoRAG orquestra sinergicamente LLMs, gráficos de conhecimento e o algoritmo PageRank personalizado para imitar as diferentes funções do neocórtex e do hipocampo na memória humana. Comparamos o HippoRAG com os métodos RAG existentes em respostas a perguntas multi-hop e mostramos que nosso método supera notavelmente os métodos de última geração, em até 20%. A recuperação em etapa única com HippoRAG atinge desempenho comparável ou melhor do que a recuperação iterativa como IRCoT, sendo 10 a 30 vezes mais barata e 6 a 13 vezes mais rápida, e a integração do HippoRAG ao IRCoT traz ganhos substanciais adicionais. Finalmente, mostramos que nosso método pode lidar com novos tipos de cenários que estão fora do alcance dos métodos existentes. | Otimização RAG |
21 de maio de 2024 | OmniGlue: correspondência de recursos generalizáveis com orientação do modelo básico | O campo de correspondência de imagens tem testemunhado um surgimento contínuo de novas técnicas de correspondência de recursos que podem ser aprendidas, com desempenho cada vez melhor em benchmarks convencionais. No entanto, a nossa investigação mostra que, apesar destes ganhos, o seu potencial para aplicações no mundo real é restringido pelas suas capacidades limitadas de generalização para novos domínios de imagem. Neste artigo, apresentamos OmniGlue, o primeiro matcher de imagens que pode ser aprendido e projetado tendo a generalização como princípio fundamental. OmniGlue aproveita o amplo conhecimento de um modelo de base de visão para orientar o processo de correspondência de recursos, aumentando a generalização para domínios não vistos no momento do treinamento. Além disso, propomos um novo mecanismo de atenção guiada pela posição do ponto-chave que desembaraça informações espaciais e de aparência, levando a descritores de correspondência aprimorados. Realizamos experimentos abrangentes em um conjunto de 7 conjuntos de dados com domínios de imagens variados, incluindo imagens em nível de cena, centradas em objetos e aéreas. Os novos componentes do OmniGlue levam a ganhos relativos em domínios invisíveis de 20,9% em relação a um modelo de referência diretamente comparável, ao mesmo tempo que superam o recente método LightGlue em 9,5% relativamente. O código e o modelo podem ser encontrados em https: //hwjiang1510.github.io/OmniGlue. | Modelos Multimodais |
20 de maio de 2024 | MoRA: atualização de alto nível para ajuste fino com eficiência de parâmetros | A adaptação de baixa classificação (LoRA) é um método popular de ajuste fino com eficiência de parâmetros (PEFT) para modelos de linguagem grandes (LLMs). Neste artigo, analisamos o impacto da atualização de baixa classificação, conforme implementada no LoRA. Nossas descobertas sugerem que o mecanismo de atualização de baixa classificação pode limitar a capacidade dos LLMs de aprender e memorizar efetivamente novos conhecimentos. Inspirados por esta observação, propomos um novo método denominado MoRA, que emprega uma matriz quadrada para obter atualização de alto nível, mantendo o mesmo número de parâmetros treináveis. Para conseguir isso, introduzimos os operadores não-parâmetros correspondentes para reduzir a dimensão de entrada e aumentar a dimensão de saída para a matriz quadrada. Além disso, esses operadores garantem que o peso possa ser mesclado novamente nos LLMs, o que faz com que nosso método possa ser implantado como LoRA. Realizamos uma avaliação abrangente do nosso método em cinco tarefas: ajuste de instruções, raciocínio matemático, pré-treinamento contínuo, memória e pré-treinamento. Nosso método supera o LoRA em tarefas com uso intensivo de memória e atinge desempenho comparável em outras tarefas. Nosso código estará disponível em https://github.com/kongds/MoRA. | Abordagens PEFT, ajuste fino |
19 de maio de 2024 | Seu transformador é secretamente linear | Este artigo revela uma nova característica linear exclusiva para decodificadores de transformadores, incluindo modelos como GPT, LLaMA, OPT, BLOOM e outros. Analisamos transformações de incorporação entre camadas sequenciais, descobrindo uma relação linear quase perfeita (pontuação de similaridade de Procrustes de 0,99). No entanto, a linearidade diminui quando o componente residual é removido devido a uma norma de saída consistentemente baixa da camada do transformador. Nossos experimentos mostram que a remoção ou aproximação linear de alguns dos blocos mais lineares dos transformadores não afeta significativamente a perda ou o desempenho do modelo. Além disso, em nossos experimentos de pré-treinamento em modelos menores, introduzimos uma regularização baseada na similaridade de cosseno, com o objetivo de reduzir a linearidade da camada. Essa regularização melhora as métricas de desempenho em benchmarks como Tiny Stories e SuperGLUE e também diminui com sucesso a linearidade dos modelos. Este estudo desafia a compreensão existente das arquiteturas de transformadores, sugerindo que sua operação pode ser mais linear do que se supunha anteriormente.1 | Análise de transformador |
18 de maio de 2024 | Rumo a LLMs modulares construindo e reutilizando uma biblioteca de LoRAs | O número crescente de adaptações com parâmetros eficientes de um modelo básico de linguagem grande (LLM) exige o estudo se podemos reutilizar esses adaptadores treinados para melhorar o desempenho para novas tarefas. Estudamos a melhor forma de construir uma biblioteca de adaptadores com base em dados multitarefa e desenvolvemos técnicas para generalização de tarefas supervisionadas e de tiro zero por meio de roteamento em tal biblioteca. Comparamos as abordagens existentes para construir esta biblioteca e introduzimos o clustering baseado em modelo, MBC, um método que agrupa tarefas com base na semelhança de seus parâmetros de adaptador, otimizando indiretamente a transferência através do conjunto de dados multitarefa. Para reutilizar a biblioteca, apresentamos um novo mecanismo de roteamento zero-shot, Arrow, que permite a seleção dinâmica dos adaptadores mais relevantes para novas entradas sem a necessidade de retreinamento. Experimentamos vários LLMs, como Phi-2 e Mistral, em uma ampla gama de tarefas realizadas, verificando se adaptadores baseados em MBC e roteamento Arrow levam a uma generalização superior para novas tarefas. Damos passos no sentido de criar LLMs modulares e adaptáveis que podem igualar ou superar o treinamento conjunto tradicional. | Abordagens PEFT, ajuste fino, kit de ferramentas |
16 de maio de 2024 | Chameleon: modelos de base de fusão precoce de modais mistos | Apresentamos o Chameleon, uma família de modelos modais mistas à base de fusão, capaz de entender e gerar imagens e texto em qualquer sequência arbitrária. Descrevemos uma abordagem de treinamento estável desde o início, uma receita de alinhamento e uma parametrização arquitetônica adaptada para a configuração mista e mista e baseada em fusão precoce. Os modelos são avaliados em uma gama abrangente de tarefas, incluindo resposta visual de perguntas, legenda de imagem, geração de texto, geração de imagens e geração modal mista de forma longa. Chameleon demonstra recursos amplos e gerais, incluindo o desempenho de ponta nas tarefas de legenda de imagens, supera o llama-2 em tarefas somente de texto, sendo competitivo com modelos como Mixtral 8x7b e gemini-pro, e executa uma imagem não trivial geração, tudo em um único modelo. Ele também corresponde ou excede o desempenho de modelos muito maiores, incluindo Gemini Pro e GPT-4V, de acordo com julgamentos humanos em uma nova avaliação de geração modal de forma longa, onde o prompt ou saídas contêm seqüências mistas de imagens e texto . O Chameleon marca um passo significativo em uma modelagem unificada de documentos multimodais completos. | Modelos multimodais, modelo de fundação |
16 de maio de 2024 | Aprendizagem no contexto de muitos tiro em modelos de fundação multimodais | Sabe-se que os grandes modelos de idiomas são eficazes em poucas fusões de aprendizado no contexto (ICL). Avanços recentes em modelos de fundação multimodal permitiram janelas de contexto sem precedentes, apresentando uma oportunidade de explorar sua capacidade de realizar a ICL com muitos outros exemplos demonstradores. Neste trabalho, avaliamos o desempenho de modelos de fundação multimodais que escalam de poucos a muitos shot ICL. Realizamos o GPT-4O e Gemini 1.5 Pro em 10 conjuntos de dados que abrangem vários domínios (imagens naturais, imagens médicas, sensoriamento remoto e imagens moleculares) e tarefas (classificação multi-classa, multi-rótulo e grão fino). Observamos que a ICL de muitos tiros, incluindo até quase 2.000 exemplos demonstrativos multimodais, leva a melhorias substanciais em comparação com a ICL de poucos (<100 exemplos) em todos os conjuntos de dados. Além disso, o desempenho Gemini 1.5 Pro continua a melhorar o log-linearmente até o número máximo de exemplos testados em muitos conjuntos de dados. Dados os altos custos de inferência associados aos avisos longos necessários para a ICL de muitos tiros, também exploramos o impacto de lote várias consultas em uma única chamada de API. Mostramos que o lote de até 50 consultas pode levar a melhorias de desempenho em Zero Shot e Many-Shot ICL, com ganhos substanciais na configuração de tiro zero em vários conjuntos de dados, reduzindo drasticamente o custo e a latência por mar. Por fim, medimos a eficiência dos dados da ICL dos modelos, ou a taxa na qual os modelos aprendem com exemplos mais demonstradores. Descobrimos que, embora o GPT-4O e o Gemini 1.5 Pro obtêm desempenho semelhante em tiro zero nos conjuntos de dados, o Gemini 1.5 Pro exibe maior eficiência de dados da ICL que o GPT-4O na maioria dos conjuntos de dados. Nossos resultados sugerem que a ICL de muitos tiros pode permitir que os usuários adaptem com eficiência modelos de fundação multimodais a novos aplicativos e domínios. Nossa base de código está disponível publicamente em https://github.com/stanfordmlgroup/manyicl. | ICL, modelos multimodais |
15 de maio de 2024 | Lora aprende menos e esquece menos | A adaptação de baixo rank (LORA) é um método de finetuning com eficiência de parâmetro amplamente utilizado para modelos de linguagem grandes. Lora salva a memória treinando apenas perturbações de baixa classificação para matrizes de peso selecionadas. Neste trabalho, comparamos o desempenho de Lora e Finetuning completo em dois domínios de destino, programação e matemática. Consideramos os regimes de dados de finonetuning (± 100k prontos-resposta) e pré-treinamento contínuo (~ 10B tokens não estruturados). Nossos resultados mostram que, na maioria das configurações, a LORA substancialmente atende a Finetuning completa. No entanto, a Lora exibe uma forma desejável de regularização: mantém melhor o desempenho do modelo básico em tarefas fora do domínio de destino. Mostramos que a Lora fornece regularização mais forte em comparação com técnicas comuns, como decaimento de peso e abandono; Também ajuda a manter gerações mais diversas. Mostramos que o Finetuning completo aprende perturbações com uma classificação 10-100x maior que as configurações típicas do LORA, possivelmente explicando algumas das lacunas relatadas. Concluímos propondo as melhores práticas para o Finetuning com Lora. | Abordagens de peft, ajuste fino |
14 de maio de 2024 | Compreendendo a lacuna de desempenho entre os algoritmos de alinhamento online e offline | O aprendizado de reforço com o feedback humano (RLHF) é a estrutura canônica para o grande alinhamento do modelo de idioma. No entanto, a crescente popularidade nos algoritmos de alinhamento offline desafia a necessidade de amostragem na política no RLHF. Dentro do contexto de otimização de recompensa, começamos com um conjunto de experiências de abertura que demonstram a clara vantagem dos métodos on-line sobre os métodos offline. Isso nos leva a investigar as causas da discrepância de desempenho por meio de uma série de ablações experimentais cuidadosamente projetadas. Mostramos empiricamente que hipóteses como cobertura offline e qualidade de dados por si só não podem explicar de forma convincente a diferença de desempenho. Também descobrimos que, embora os algoritmos offline treinem a política de treinar para se tornarem bons na classificação em pares, ela é pior nas gerações; Enquanto isso, as políticas treinadas por algoritmos on -line são boas em gerações, enquanto pior na classificação em pares. Isso sugere uma interação única entre recursos discriminativos e generativos, o que é bastante impactado pelo processo de amostragem. Por fim, observamos que a discrepância do desempenho persiste por funções de perda contrastiva e não contrastiva e parece não ser abordado simplesmente dimensionando as redes de políticas. Tomados em conjunto, nosso estudo lança luz sobre o papel fundamental da amostragem na política no alinhamento da IA e sugere certos desafios fundamentais dos algoritmos de alinhamento offline. | Alinhamento |
13 de maio de 2024 | RLHF Fluxo de trabalho: da modelagem de recompensa ao RLHF online | Apresentamos o fluxo de trabalho do aprendizado de reforço iterativo on -line com o Feedback Humano (RLHF) neste relatório técnico, que é amplamente relatado que supera sua contraparte offline por uma grande margem na literatura recente de Modelo de Linguagem Grande (LLM). No entanto, os projetos RLHF de código aberto existentes ainda estão amplamente confinados ao cenário de aprendizado offline. Neste relatório técnico, pretendemos preencher essa lacuna e fornecer uma receita detalhada fácil de reproduzir para o RLHF iterativo on -line. Em particular, como o feedback humano on-line geralmente é inviável para comunidades de código aberto com recursos limitados, começamos a construir modelos de preferência usando um conjunto diversificado de conjuntos de dados de código aberto e usamos o modelo de preferência de proxy construído para aproximar o feedback humano. Em seguida, discutimos as idéias teóricas e os princípios algorítmicos por trás do RLHF iterativo on -line, seguido de uma implementação prática detalhada. Nosso LLM treinado, SFR-adierativo-DPO-lama-3-8b-R, alcança um desempenho impressionante nos benchmarks de chatbot de LLM, incluindo alpacaeval-2, arena-hard e mt-banch, além de outros benchmarks acadêmicos, como Humaneval e Verdadeiro. Mostramos que o ajuste fino supervisionado (SFT) e o RLHF iterativo podem obter desempenho de ponta com conjuntos de dados totalmente abertos. Além disso, tornamos nossos modelos, conjuntos de dados com curadoria e guias de código passo a passo abrangentes disponíveis publicamente. Consulte https://github.com/rlhflow/rlhf-reward-modeling e https://github.com/rlhflow/online-rlhf para obter informações mais detalhadas. | Otimização de preferência, RLHF |
2 de maio de 2024 | Prometheus 2: Um modelo de idioma de código aberto especializado na avaliação de outros modelos de idiomas | Os LMs proprietários como o GPT-4 são frequentemente empregados para avaliar a qualidade das respostas de vários LMs. No entanto, preocupações, incluindo transparência, controlabilidade e acessibilidade, motivam fortemente o desenvolvimento do OpenSource LMS especializado em avaliações. Por outro lado, os LMs de avaliadores abertos existentes exibem deficiências críticas: 1) emitem pontuações que divergem significativamente daquelas designadas pelos seres humanos e 2) não têm flexibilidade para executar a avaliação direta e a classificação pareada, as duas formas mais prevalentes de avaliação . Além disso, eles não possuem a capacidade de avaliar com base em critérios de avaliação personalizados, concentrando -se em atributos gerais, como utilidade e inominência. Para resolver essas questões, apresentamos o Prometheus 2, um avaliador mais poderoso do que o antecessor que reflete de perto os julgamentos humanos e GPT-4. Além disso, é capaz de processar os formatos de avaliação direta e de classificação em pares agrupados com um critério de avaliação definido pelo usuário. Em quatro benchmarks de avaliação direta e quatro parâmetros de referência de classificação em pares, o Prometheus 2 obtém a maior correlação e concordância com os seres humanos e os juízes proprietários de LM entre todos os LMs de avaliador aberto testados. Nossos modelos, código e dados estão todos disponíveis publicamente 1. | Avaliação, agentes |
2 de maio de 2024 | WildChat: 1M Chatgpt Inteation Trogs na natureza | Chatbots como GPT-4 e ChatGPT agora estão servindo milhões de usuários. Apesar de seu uso generalizado, ainda há falta de conjuntos de dados públicos mostrando como essas ferramentas são usadas por uma população de usuários na prática. Para preencher essa lacuna, oferecemos acesso gratuito ao ChatGPT para usuários on-line em troca de sua opção afirmativa e consensual para coletar anonimamente suas transcrições de bate-papo e solicitar cabeçalhos. A partir disso, compilamos o WildChat, um corpus de 1 milhão de conversas de chatgpt, que consiste em mais de 2,5 milhões de voltas de interação. Comparamos o WildChat com outros conjuntos de dados popular de interação com chatbot de usuário e descobrimos que nosso conjunto de dados oferece os avisos de usuário mais diversos, contém o maior número de idiomas e apresenta a variedade mais rica de casos de uso potencialmente tóxicos para os pesquisadores estudarem. Além das transcrições de bate -papo com registro de data e hora, enriquecemos o conjunto de dados com dados demográficos, incluindo endereços IP de estado, país e hash, juntamente com os cabeçalhos de solicitação. Esse aumento permite uma análise mais detalhada dos comportamentos do usuário em diferentes regiões geográficas e dimensões temporais. Por fim, como captura uma ampla gama de casos de uso, demonstramos o utilitário potencial do conjunto de dados em modelos de seguidores de instrução de ajuste fino. Wildchat é lançado em https://wildchat.allen.ai sob licenças de impacto AI21. | Referência, avaliação |
2 de maio de 2024 | StoryDiffusion: auto-atimento consistente para geração de imagem e vídeo de longo alcance | Para modelos generativos recentes baseados em difusão, mantendo conteúdo consistente em uma série de imagens geradas, especialmente aquelas que contêm assuntos e detalhes complexos, apresenta um desafio significativo. Neste artigo, propomos uma nova maneira de cálculo de auto-distribuição, denominada auto-atimento consistente, que aumenta significativamente a consistência entre as imagens geradas e aumenta os modelos de texto para imagem baseados em difusão prevalecentes de maneira zero. Para estender nosso método à geração de vídeo de longo alcance, introduzimos ainda um novo módulo de previsão de movimento temporal do espaço semântico, denominado Predictor de Movimento Semântico. É treinado para estimar as condições de movimento entre duas imagens fornecidas nos espaços semânticos. Este módulo converte a sequência gerada de imagens em vídeos com transições suaves e assuntos consistentes que são significativamente mais estáveis do que os módulos com base apenas em espaços latentes, especialmente no contexto de longa geração de vídeo. Ao mesclar esses dois novos componentes, nossa estrutura, conhecida como StoryDiffusion, pode descrever uma história baseada em texto com imagens ou vídeos consistentes que abrangem uma rica variedade de conteúdos. A proposta StoryDiffusion abrange explorações pioneiras na geração de histórias visuais com a apresentação de imagens e vídeos, que esperamos que possam inspirar mais pesquisas do aspecto das modificações arquitetônicas. | Modelos multimodais, difusão |
2 de maio de 2024 | Chama: Alinhamento com reconhecimento de factualidade para grandes modelos de idiomas | O alinhamento é um procedimento padrão para ajustar modelos de grandes idiomas pré-treinados (LLMS) para seguir as instruções de linguagem natural e servir como assistentes úteis de IA. Observamos, no entanto, que o processo de alinhamento convencional falha em melhorar a precisão factual dos LLMs e geralmente leva à geração de fatos mais falsos (ou seja, alucinação). Neste artigo, estudamos como tornar o processo de alinhamento LLM mais factual, ao identificar primeiro fatores que levam à alucinação nas duas etapas de alinhamento: ajuste fino supervisionado (SFT) e aprendizado de reforço (RL). Em particular, descobrimos que o treinamento do LLM em novos conhecimentos ou textos desconhecidos pode incentivar a alucinação. Isso torna a SFT menos factual, pois treina em dados rotulados por humanos que podem ser novos para o LLM. Além disso, as funções de recompensa usadas no RL padrão também podem incentivar a alucinação, pois orienta o LLM a fornecer respostas mais úteis em um conjunto diversificado de instruções, geralmente preferem respostas mais longas e mais detalhadas. Com base nessas observações, propomos o alinhamento de factualidade (FLAME), composto por SFT com reconhecimento de factualidade e RL com reconhecimento de factualidade por meio de otimização direta de preferência. Experimentos mostram que nossa proposta de alinhamento com reconhecimento de factualidade LLMS para produzir respostas mais factuais, mantendo a capacidade de seguir as seguintes | Alinhamento, factualidade |
2 de maio de 2024 | Nemo-Aligner: Kit de ferramentas escalável para alinhamento eficiente do modelo | Alinhar grandes modelos de linguagem (LLMs) com valores e preferências humanos é essencial para torná -los úteis e seguros. No entanto, a criação de ferramentas eficientes para realizar o alinhamento pode ser um desafio, especialmente para os LLMs maiores e mais competentes que geralmente contêm dezenas ou centenas de bilhões de parâmetros. Criamos Nemo-Aligner, um kit de ferramentas para o alinhamento do modelo que pode escalar com eficiência a usar centenas de GPUs para treinamento. O Nemo-Aligner vem com implementações altamente otimizadas e escaláveis para os principais paradigmas do alinhamento do modelo, como: Aprendizagem de reforço com feedback humano (RLHF), otimização direta de preferência (DPO), Steerlm e Auto-tocando ajuste fino (spin). Além disso, nosso kit de ferramentas suporta executar a maioria das técnicas de alinhamento em uma configuração de ajuste fina (PEFT) eficiente em parâmetro. O Nemo-Aligner foi projetado para extensibilidade, permitindo suporte para outras técnicas de alinhamento com um esforço mínimo. É de código aberto com a licença Apache 2.0 e convidamos as contribuições da comunidade em https://github.com/nvidia/nemo-aligner. | Alinhamento, kit de ferramentas |
1 de maio de 2024 | O tamanho maior do lote de edição é sempre melhor? - Um estudo empírico sobre edição de modelo com llama-3 | Este estudo apresenta uma análise de edição de modelo direcionada focada no mais recente modelo de grande idioma, LLAMA-3. Exploramos a eficácia das técnicas populares de edição de modelos - Roma, Memit e Emmet, projetadas para intervenções precisas da camada. Identificamos as camadas mais eficazes para edições direcionadas através de uma avaliação que abrange até 4096 edições em três estratégias distintas: edição seqüencial, edição em lote e uma abordagem híbrida que chamamos de edição de lotes seqüenciais. Nossas descobertas indicam que o aumento dos sizes de lote de edição pode degradar o desempenho do modelo mais significativamente do que o uso de lotes de edição menores sequencialmente para o mesmo número de edições. Com isso, argumentamos que a edição de modelo seqüencial é um componente importante para escalar métodos de edição de modelos e pesquisas futuras devem se concentrar em métodos que combinam edição em lotes e sequenciais. Essa observação sugere uma limitação potencial nos métodos atuais de edição de modelos que avançam em direção a tamanhos de lote de edição maiores, e esperamos que isso abre uma maneira de futuras investigações para otimizar tamanhos de lote e desempenho de edição de modelos. | Edição de modelo |
1 de maio de 2024 | Lora Land: 310 LLMs de ajuste fino que rivalizam com o GPT-4, um relatório técnico | A adaptação de baixa classificação (LORA) emergiu como um dos métodos mais amplamente adotados para o ajuste fino (PEFT) mais amplamente adotado (LLMS). A LORA reduz o número de parâmetros treináveis e o uso da memória enquanto obtém desempenho comparável ao ajuste completo. Nosso objetivo é avaliar a viabilidade de treinamento e servir LLMs ajustados com a LORA em aplicativos do mundo real. Primeiro, medimos a qualidade dos LLMs ajustados com adaptadores de baixa classificação quantizados em 10 modelos básicos e 31 tarefas para um total de 310 modelos. Descobrimos que os modelos de ajuste fino LORA de 4 bits superam os modelos básicos em 34 pontos e o GPT-4 por 10 pontos, em média. Segundo, investigamos os modelos básicos mais eficazes para ajustar e avaliar as capacidades correlativas e preditivas da complexidade de tarefas heurísticas na previsão dos resultados do ajuste fino. Finalmente, avaliamos os recursos de latência e simultaneidade do Lorax, um servidor de inferência multi-lora de código aberto que facilita a implantação de vários modelos de ajuste fino LORA em uma única GPU usando pesos do modelo de base compartilhada e carga de adaptador dinâmico. O Lorax Powers Lora Land, um aplicativo da Web que hospeda 25 Lora Fined Mistral-7B LLMS em uma única GPU da NVIDIA A100 com memória de 80 GB. A Lora Land destaca a qualidade e a relação custo-benefício de empregar vários LLMs especializados em um único LLM de uso geral. | Abordagens de peft, ajuste fino |
Junte-se a mais de 1000 alunos nesta aventura de 10 semanas à medida que nos aprofundamos na aplicação de LLMs em vários casos de uso
? ️ *Semana 1 [15 de janeiro de 2024] *: Introdução prática ao LLMS
? Sustta 2 [22 de janeiro de 2024] *: solicitando e pronta para engenharia
? Iqu *semana 3 [29 de janeiro 2024] *: llm tune finering
? Iqu *semana 4 [5 de fevereiro de 2024] *: RAG (geração de recuperação com agitação)
? Sustct *semana 5 [12 de fevereiro 2024] *: Ferramentas para a construção de aplicativos LLM
? Sustta 6 [19 de fevereiro de 2024] *: Técnicas de avaliação
? Iqu *Semana 7 [26 de fevereiro de 2024] *: Construindo seu próprio aplicativo LLM
? Sustct *semana 8 [4 de março de 2024] *: Recursos avançados e implantação
? Sustta 9 [11 de março de 2024] *: Desafios com LLMS
? Sustct *semana 10 [18 de março de 2024] *: Tendências emergentes de pesquisa
? Sustce *Semana 11 *Bônus *[25 de março de 2024] *: Fundamentos
Grandes modelos de linguagem por eth zurique
Compreendendo grandes modelos de linguagem por Princeton
Curso de Transformers por Huggingface
Curso de NLP por Huggingface
CS324 - Modelos de idiomas grandes por Stanford
IA generativa com grandes modelos de linguagem por Coursera
Introdução à IA generativa por Coursera
Fundamentos generativos da IA pelo Google Cloud
Introdução a grandes modelos de linguagem pelo Google Cloud
Introdução à IA generativa pelo Google Cloud
Conceitos generativos de IA por Datacamp (Daniel Tedesco Data Lead @ google)
1 hora Introdução ao LLM (grandes modelos de idiomas) por weclouddata
Modelos de fundação LLM desde o início | Primer by Databricks
IA generativa explicada por Nvidia
Modelos de transformadores e modelo Bert pelo Google Cloud
Plano de aprendizado de IA generativo para tomadores de decisão pela AWS
Introdução à IA Responsável pelo Google Cloud
Fundamentos da IA generativa do Microsoft Azure
IA generativa para iniciantes pela Microsoft
Chatgpt para iniciantes: os casos de uso final para todos por Udemy
[1HR Talk] Introdução a grandes modelos de linguagem por Andrej Karpathy
Chatgpt para todos, aprendendo provando
Grandes modelos de idiomas (LLMS) (em inglês) de Kshitiz Verma (Universidade JK Lakshmipat, Jaipur, Índia)
LLMOPS: Construindo aplicações do mundo real com grandes modelos de linguagem por Udacity
Full Stack LLM Bootcamp por FSDL
IA generativa para iniciantes pela Microsoft
Modelos de idiomas grandes: Aplicação através da produção por Databricks
Fundamentos generativos de IA da AWS
Introdução ao curso generativo da comunidade de IA por Ineuron
Universidade LLM por coere
LLM Laboratório de aprendizado por Lightning AI
Langchain para LLM Application Development por Deeplearning.ai
Llmops por Deeplearning.ai
Teste automatizado para LLMOPs por Deeplearning.ai
Construindo aplicativos de IA generativos usando a Amazon Bedrock pela AWS
Servindo com eficiência LLMs por Deeplearning.ai
Building Systems With the ChatGPT API by Deeplearning.ai
Aplicativos LLM sem servidor com Amazon Bedrock por Deeplearning.ai
Construindo aplicações com bancos de dados de vetores por DeePlearning.ai
Teste automatizado para LLMOPs por Deeplearning.ai
Llmops por Deeplearning.ai
Build LLM Apps com Langchain.js por Deeplearning.ai
Recuperação avançada para IA com Chroma por Deeplearning.ai
Operacionalizando LLMs no Azure by Coursera
Curso completo da IA generativa - Gemini Pro, Openai, Llama, Langchain, Pinecone, Vector Bathabases & More por Freecodecamp.org
Treinamento e Tuneamento Fineling LLMS para produção por ActivEloop
Bancos de dados Langchain & Vector em produção por ActiveLoop
Aprendizagem de reforço com o feedback humano por deeplearning.ai
Construindo aplicações com bancos de dados de vetores por DeePlearning.ai
Finetuning Language Models by Deeplearning.ai
Langchain: converse com seus dados por deeplearning.ai
Building Systems With the ChatGPT API by Deeplearning.ai
Engenharia rápida com Llama 2 por Deeplearning.ai
Construindo aplicações com bancos de dados de vetores por DeePlearning.ai
Chatgpt Prompt Engineering for Developers by Deeplearning.ai
Série avançada de orquestração de trapos por Llandeindex
Especialização pronta de engenharia por Coursera
Aumentar seu LLM usando a geração aumentada de recuperação pela NVIDIA
Gráficos de conhecimento para RAG por Deeplearning.ai
Modelos de código aberto com Hugging Face by Deeplearning.ai
Bancos de dados vetoriais: de incorporação a aplicativos de Deeplearning.ai
Entendendo e aplicando incorporações de texto por deeplearning.ai
JavaScript Rag Web Apps com Llamaindex by Deeplearning.ai
Quantização Fundamentos com o rosto abraçando por deeplearning.ai
Pré -processamento de dados não estruturados para aplicativos LLM por Deeplearning.ai
Geração aumentada de recuperação para produção com Langchain & Llamaindex by ActivEloop
Quantização em profundidade por deeplearning.ai
Se você deseja adicionar ao repositório ou encontrar quaisquer problemas, sinta -se à vontade para aumentar um PR e garantir a colocação correta na seção ou categoria relevante.
Para citar este guia, use o formato abaixo:
@article{areganti_generative_ai_guide,
author = {Reganti, Aishwarya Naresh},
journal = {https://github.com/aishwaryanr/awesome-generative-ai-resources},
month = {01},
title = {{Generative AI Guide}},
year = {2024}
}
[MIT Licença]