A IA generativa está passando por um rápido crescimento e este repositório serve como um centro abrangente para atualizações sobre pesquisas de IA generativa, materiais de entrevistas, cadernos e muito mais!
Explore os seguintes recursos:
Estaremos atualizando este repositório regularmente, então fique atento às últimas adições!
Feliz aprendizado!
*Atualizado no final de cada mês
Data | Título | Resumo |
---|---|---|
30 de setembro de 2024 | MM1.5: Métodos, Análise e Insights do Multimodal LLM Ajuste Fino | Apresentamos MM1.5, uma nova família de modelos multimodais de linguagem grande (MLLMs) projetados para aprimorar capacidades de compreensão de imagens ricas em texto, referência e fundamentação visual e raciocínio multi-imagem. Com base na arquitetura MM1, o MM1.5 adota uma abordagem centrada em dados para o treinamento de modelos, explorando sistematicamente o impacto de diversas misturas de dados em todo o ciclo de vida do treinamento de modelos. Isso inclui dados de OCR de alta qualidade e legendas sintéticas para pré-treinamento contínuo, bem como uma mistura otimizada de dados de ajuste de instrução visual para ajuste fino supervisionado. Nossos modelos variam de parâmetros de 1B a 30B, abrangendo variantes densas e de mistura de especialistas (MoE), e demonstram que estratégias cuidadosas de curadoria e treinamento de dados podem produzir um forte desempenho mesmo em pequenas escalas (1B e 3B). Além disso, apresentamos duas variantes especializadas: MM1.5-Video, projetada para compreensão de vídeo, e MM1.5-UI, adaptada para compreensão de UI móvel. Através de extensos estudos empíricos e ablações, fornecemos insights detalhados sobre os processos de treinamento e decisões que informam nossos projetos finais, oferecendo orientação valiosa para pesquisas futuras no desenvolvimento de MLLM. |
26 de setembro de 2024 | MIO: um modelo básico para tokens multimodais | Neste artigo, apresentamos o MIO, um novo modelo básico construído em tokens multimodais, capaz de compreender e gerar fala, texto, imagens e vídeos de maneira autorregressiva de ponta a ponta. Embora o surgimento de grandes modelos de linguagem (LLMs) e modelos multimodais de grandes linguagens (MM-LLMs) impulsione avanços na inteligência artificial geral por meio de suas capacidades versáteis, eles ainda carecem de verdadeira compreensão e geração de qualquer para qualquer. Recentemente, o lançamento do GPT-4o demonstrou o notável potencial dos LLMs any-to-any para tarefas complexas do mundo real, permitindo entrada e saída omnidirecional através de imagens, fala e texto. No entanto, é de código fechado e não suporta a geração de sequências intercaladas multimodais. Para resolver essa lacuna, apresentamos o MIO, que é treinado em uma mistura de tokens discretos em quatro modalidades usando modelagem multimodal causal. O MIO passa por um processo de treinamento de quatro estágios: (1) pré-treinamento de alinhamento, (2) pré-treinamento intercalado, (3) pré-treinamento aprimorado pela fala e (4) ajuste fino supervisionado abrangente em diversos textos, visuais, e tarefas de fala. Nossos resultados experimentais indicam que o MIO exibe desempenho competitivo e, em alguns casos, superior, em comparação com linhas de base bimodais anteriores, linhas de base de qualquer modelo e até mesmo linhas de base específicas da modalidade. Além disso, o MIO demonstra capacidades avançadas inerentes ao seu recurso any-to-any, como geração de texto de vídeo intercalado, raciocínio de cadeia de pensamento visual, geração de diretrizes visuais, edição de imagens instrucionais, etc. |
26 de setembro de 2024 | MaskLLM: Dispersão semiestruturada que pode ser aprendida para modelos de linguagem grande | Os Large Language Models (LLMs) distinguem-se pela sua enorme contagem de parâmetros, que normalmente resulta numa redundância significativa. Este trabalho apresenta o MaskLLM, um método de poda que pode ser aprendido que estabelece esparsidade semiestruturada (ou ``N:M'') em LLMs, com o objetivo de reduzir a sobrecarga computacional durante a inferência. Em vez de desenvolver um novo critério de importância, MaskLLM modela explicitamente padrões N:M como uma distribuição que pode ser aprendida por meio de amostragem Gumbel Softmax. Essa abordagem facilita o treinamento ponta a ponta em conjuntos de dados de grande escala e oferece duas vantagens notáveis: 1) Máscaras de alta qualidade - nosso método é dimensionado efetivamente para grandes conjuntos de dados e aprende máscaras precisas; 2) Transferibilidade - a modelagem probabilística da distribuição de máscaras permite a transferência de aprendizagem da dispersão entre domínios ou tarefas. Avaliamos MaskLLM usando esparsidade 2:4 em vários LLMs, incluindo LLaMA-2, Nemotron-4 e GPT-3, com tamanhos variando de parâmetros de 843M a 15B, e nossos resultados empíricos mostram melhorias substanciais em relação ao estado da arte métodos. Por exemplo, as abordagens principais alcançam uma perplexidade (PPL) de 10 ou mais no Wikitexto em comparação com 5,12 PPL do modelo denso, mas MaskLLM atinge um PPL significativamente menor de 6,72 PPL apenas aprendendo as máscaras com pesos congelados. Além disso, a natureza aprendível do MaskLLM permite máscaras personalizadas para aplicação sem perdas de esparsidade 2:4 para tarefas ou domínios downstream. O código está disponível em url{https://github.com/NVlabs/MaskLLM}. |
25 de setembro de 2024 | Molmo e PixMo: pesos abertos e dados abertos para modelos multimodais de última geração | Os modelos multimodais mais avançados de hoje permanecem proprietários. Os modelos de peso aberto mais fortes dependem fortemente de dados sintéticos de VLMs proprietários para alcançar um bom desempenho, destilando efetivamente esses modelos fechados em modelos abertos. Como resultado, a comunidade ainda carece de conhecimento básico sobre como construir VLMs de alto desempenho do zero. Apresentamos Molmo, uma nova família de VLMs que é o que há de mais moderno em sua classe de abertura. Nossa principal inovação é um conjunto de dados de legendas de imagens novo e altamente detalhado, coletado inteiramente de anotadores humanos usando descrições baseadas em fala. Para permitir uma ampla gama de interações do usuário, também introduzimos uma mistura diversificada de conjuntos de dados para ajuste fino que inclui perguntas e respostas reais e dados inovadores de apontamento 2D. O sucesso de nossa abordagem depende de escolhas cuidadosas para os detalhes da arquitetura do modelo, de um pipeline de treinamento bem ajustado e, o mais importante, da qualidade de nossos conjuntos de dados recém-coletados, que serão todos lançados. O melhor modelo 72B da família Molmo não apenas supera outros na classe de modelos de peso aberto e de dados, mas também se compara favoravelmente com sistemas proprietários como GPT-4o, Claude 3.5 e Gemini 1.5 em benchmarks acadêmicos e avaliação humana . Estaremos lançando todos os nossos pesos de modelo, dados de legenda e ajuste fino e código-fonte em um futuro próximo. Pesos de modelo selecionados, código de inferência e demonstração estão disponíveis em https://molmo.allenai.org. |
25 de setembro de 2024 | VPTQ: Quantização vetorial pós-treinamento de bits extremamente baixos para modelos de linguagem grande | O dimensionamento do tamanho do modelo desafia significativamente a implantação e inferência de modelos de linguagem grande (LLMs). Devido à redundância nos pesos LLM, pesquisas recentes se concentraram em levar a quantização somente de peso para bits extremamente baixos (até mesmo 2 bits). Reduz os requisitos de memória, otimiza os custos de armazenamento e diminui as necessidades de largura de banda de memória durante a inferência. No entanto, devido às limitações de representação numérica, a quantização tradicional de peso baseada em escalar luta para atingir um valor tão baixo. Pesquisas recentes sobre quantização vetorial (VQ) para LLMs demonstraram o potencial para quantização de modelos de bits extremamente baixos, compactando vetores em índices usando tabelas de pesquisa. Neste artigo, apresentamos a quantização vetorial pós-treinamento (VPTQ) para quantização de LLMs de bits extremamente baixos. Usamos a otimização de segunda ordem para formular o problema LLM VQ e orientar nosso projeto de algoritmo de quantização resolvendo a otimização. Refinamos ainda mais os pesos usando a otimização de segunda ordem independente de canal para um VQ granular. Além disso, ao decompor o problema de otimização, propomos um algoritmo de inicialização de livro de código breve e eficaz. Também estendemos o VPTQ para suportar a quantização de resíduos e valores discrepantes, o que aumenta a precisão do modelo e comprime ainda mais o modelo. Nossos resultados experimentais mostram que o VPTQ reduz a perplexidade da quantização do modelo em |
24 de setembro de 2024 | Time-MoE: modelos básicos de séries temporais em escala de bilhões com mistura de especialistas | O aprendizado profundo para previsão de séries temporais teve avanços significativos nas últimas décadas. No entanto, apesar do sucesso da pré-formação em larga escala nos domínios da linguagem e da visão, os modelos de séries temporais pré-treinados permanecem limitados em escala e operam a um custo elevado, dificultando o desenvolvimento de modelos de previsão de maior capacidade em aplicações do mundo real. Em resposta, apresentamos o Time-MoE, uma arquitetura escalável e unificada projetada para pré-treinar modelos básicos de previsão maiores e mais capazes, ao mesmo tempo que reduz os custos de inferência. Ao aproveitar um design de mistura esparsa de especialistas (MoE), o Time-MoE aumenta a eficiência computacional ativando apenas um subconjunto de redes para cada previsão, reduzindo a carga computacional e mantendo a alta capacidade do modelo. Isso permite que o Time-MoE seja dimensionado de forma eficaz, sem um aumento correspondente nos custos de inferência. O Time-MoE compreende uma família de modelos de transformadores somente decodificadores que operam de maneira auto-regressiva e suportam horizontes de previsão flexíveis com comprimentos variados de contexto de entrada. Pré-treinamos esses modelos em nosso recém-introduzido dados em grande escala Time-300B, que abrange mais de 9 domínios e abrange mais de 300 bilhões de pontos no tempo. Pela primeira vez, ampliamos um modelo básico de série temporal para até 2,4 bilhões de parâmetros, alcançando uma precisão de previsão significativamente melhorada. Nossos resultados validam a aplicabilidade das leis de escala para tokens de treinamento e tamanho do modelo no contexto da previsão de séries temporais. Em comparação com modelos densos com o mesmo número de parâmetros ativados ou orçamentos de computação equivalentes, nossos modelos os superam consistentemente por uma grande margem. Esses avanços posicionam o Time-MoE como uma solução de última geração para enfrentar desafios de previsão de séries temporais do mundo real com capacidade, eficiência e flexibilidade superiores. |
23 de setembro de 2024 | Um estudo preliminar de o1 em medicina: estamos mais perto de um médico de IA? | Grandes modelos de linguagem (LLMs) exibiram capacidades notáveis em vários domínios e tarefas, ampliando os limites do nosso conhecimento em aprendizagem e cognição. O modelo mais recente, o1 da OpenAI, destaca-se como o primeiro LLM com uma técnica internalizada de cadeia de pensamento usando estratégias de aprendizagem por reforço. Embora tenha demonstrado capacidades surpreendentemente fortes em várias tarefas linguísticas gerais, o seu desempenho em áreas especializadas, como a medicina, permanece desconhecido. Para este fim, este relatório fornece uma exploração abrangente de o1 em diferentes cenários médicos, examinando três aspectos principais: compreensão, raciocínio e multilinguismo. Especificamente, nossa avaliação abrange 6 tarefas usando dados de 37 conjuntos de dados médicos, incluindo duas tarefas de resposta a perguntas (QA) recém-construídas e mais desafiadoras, baseadas em questionários médicos profissionais do New England Journal of Medicine (NEJM) e do The Lancet. Esses conjuntos de dados oferecem maior relevância clínica em comparação com benchmarks de controle de qualidade médica padrão, como o MedQA, traduzindo-se de forma mais eficaz em utilidade clínica no mundo real. Nossa análise de o1 sugere que a capacidade aprimorada de raciocínio dos LLMs pode beneficiar (significativamente) sua capacidade de compreender várias instruções médicas e raciocinar através de cenários clínicos complexos. Notavelmente, o1 supera o GPT-4 anterior em precisão em uma média de 6,2% e 6,6% em 19 conjuntos de dados e dois cenários complexos de controle de qualidade recém-criados. Mas, entretanto, identificamos vários pontos fracos tanto na capacidade do modelo como nos protocolos de avaliação existentes, incluindo alucinação, capacidade multilingue inconsistente e métricas discrepantes para avaliação. Divulgamos nossos dados brutos e resultados do modelo em https://ucsc-vlaa.github.io/o1_medicine/ para pesquisas futuras. |
21 de setembro de 2024 | Seguimento de instrução sem ajuste de instrução | O ajuste de instrução geralmente significa o ajuste fino de um modelo de linguagem em pares instrução-resposta. Descobrimos duas formas de adaptação (ajuste) que são deficientes em comparação com o ajuste de instrução, mas ainda assim produzem seguimento de instrução; chamamos isso de ajuste implícito de instruções. Primeiro descobrimos que os pares instrução-resposta não são necessários: o treinamento apenas nas respostas, sem quaisquer instruções correspondentes, produz o seguimento da instrução. Isso sugere que os modelos pré-treinados têm um mapeamento instrução-resposta que é revelado ao ensinar ao modelo a distribuição desejada de respostas. No entanto, descobrimos que não é necessário ensinar a distribuição desejada de respostas: o treinamento instrução-resposta em dados de domínio restrito, como poesia, ainda leva a um comportamento amplo de seguimento de instruções, como geração de receitas. Em particular, quando as instruções são muito diferentes daquelas do domínio de ajuste fino estreito, as respostas dos modelos não aderem ao estilo do domínio de ajuste fino. Para começar a explicar o ajuste implícito de instruções, levantamos a hipótese de que mudanças muito simples na distribuição de um modelo de linguagem produzem o seguimento de instruções. Apoiamos isso escrevendo à mão um modelo de linguagem baseado em regras que produz instrução seguindo um produto de especialistas com um modelo pré-treinado. As regras são aumentar lentamente a probabilidade de terminar a sequência, penalizar a repetição e alterar uniformemente as probabilidades de 15 palavras. Em resumo, as adaptações feitas sem serem concebidas para produzir o seguimento da instrução podem fazê-lo implicitamente. |
20 de setembro de 2024 | Imagine você mesmo: geração de imagens personalizadas sem ajuste | Os modelos de difusão demonstraram eficácia notável em várias tarefas imagem a imagem. Nesta pesquisa, apresentamos o Imagine você mesmo, um modelo de última geração projetado para geração de imagens personalizadas. Ao contrário das técnicas convencionais de personalização baseadas em ajustes, Imagine-se opera como um modelo sem ajustes, permitindo que todos os usuários aproveitem uma estrutura compartilhada sem ajustes individualizados. Além disso, trabalhos anteriores encontraram desafios para equilibrar a preservação da identidade, seguir instruções complexas e preservar a boa qualidade visual, resultando em modelos com forte efeito de copiar e colar das imagens de referência. Assim, dificilmente conseguem gerar imagens seguindo instruções que exijam alterações significativas na imagem de referência, por exemplo, alterando a expressão facial, as poses da cabeça e do corpo, e a diversidade das imagens geradas é baixa. Para resolver essas limitações, nosso método proposto introduz 1) um novo mecanismo sintético de geração de dados pareados para incentivar a diversidade de imagens, 2) uma arquitetura de atenção totalmente paralela com três codificadores de texto e um codificador de visão totalmente treinável para melhorar a fidelidade do texto, e 3) um nova metodologia de ajuste fino de vários estágios, grosso a fino, que gradualmente ultrapassa os limites da qualidade visual. Nosso estudo demonstra que Imagine você mesmo supera o modelo de personalização de última geração, exibindo capacidades superiores em preservação de identidade, qualidade visual e alinhamento de texto. Este modelo estabelece uma base robusta para diversas aplicações de personalização. Os resultados da avaliação humana validam a superioridade do modelo SOTA em todos os aspectos (preservação da identidade, fidelidade do texto e apelo visual) em comparação com os modelos de personalização anteriores. |
19 de setembro de 2024 | Treinamento de modelos de linguagem para autocorreção por meio de aprendizado por reforço | A autocorreção é uma capacidade altamente desejável em grandes modelos de linguagem (LLMs), mas tem sido consistentemente considerada ineficaz em LLMs modernos. Os métodos atuais para treinar a autocorreção normalmente dependem de modelos múltiplos, de um modelo mais avançado ou de formas adicionais de supervisão. Para resolver essas deficiências, desenvolvemos uma abordagem de aprendizagem por reforço on-line (RL) multivoltas, SCoRe, que melhora significativamente a capacidade de autocorreção de um LLM usando dados inteiramente autogerados. Para construir o SCoRe, primeiro mostramos que variantes de ajuste fino supervisionado (SFT) em traços de correção gerados por modelo off-line são frequentemente insuficientes para incutir um comportamento de autocorreção. Em particular, observamos que o treinamento via SFT é vítima de uma incompatibilidade de distribuição entre os erros cometidos pela política de coleta de dados e as próprias respostas do modelo, ou de um colapso de comportamento, onde a aprendizagem prefere implicitamente apenas um certo modo de correção de comportamento que muitas vezes é não é eficaz na autocorreção em problemas de teste. O SCoRe aborda esses desafios treinando sob a distribuição do próprio modelo de traços de correção autogerados e usando a regularização apropriada para orientar o processo de aprendizagem para aprender um comportamento de autocorreção que seja eficaz no momento do teste, em vez de ajustar respostas de alta recompensa para um determinado incitar. Este processo de regularização inclui uma fase inicial de RL multivoltas em um modelo base para gerar uma inicialização de política que seja menos suscetível ao colapso, seguida pelo uso de um bônus de recompensa para amplificar a autocorreção. Com os modelos Gemini 1.0 Pro e 1.5 Flash, descobrimos que o SCoRe alcança desempenho de autocorreção de última geração, melhorando a autocorreção dos modelos básicos em 15,6% e 9,1%, respectivamente, em MATH e HumanEval. |
19 de setembro de 2024 | Dimensionamento inteligente: acelerando o pré-treinamento de modelos de linguagem grande com inicialização de modelo pequeno | A fase de pré-treinamento dos modelos de linguagem geralmente começa com parâmetros inicializados aleatoriamente. Com as tendências atuais em modelos de escalonamento, treinar seu grande número de parâmetros pode ser extremamente lento e caro. Em contraste, modelos de linguagem pequena são mais baratos de treinar, mas muitas vezes não conseguem atingir a precisão de modelos grandes. Neste artigo, exploramos uma ideia intrigante para conectar esses dois regimes diferentes: Podemos desenvolver um método para inicializar grandes modelos de linguagem usando modelos menores pré-treinados? Essa inicialização trará algum benefício em termos de tempo de treinamento e precisão final? Neste artigo, apresentamos o HyperCloning, um método que pode expandir os parâmetros de um modelo de linguagem pré-treinado para aqueles de um modelo maior com dimensões ocultas aumentadas. Nosso método garante que o modelo maior retenha a funcionalidade do modelo menor. Como resultado, o modelo maior já herda o poder preditivo e a precisão do modelo menor antes do início do treinamento. Demonstramos que o treinamento de um modelo inicializado resulta em economias significativas em termos de horas de GPU necessárias para o pré-treinamento de modelos de linguagem grandes. |
18 de setembro de 2024 | Relatório técnico do codificador Qwen2.5 | Neste relatório, apresentamos a série Qwen2.5-Coder, uma atualização significativa de seu antecessor, CodeQwen1.5. Esta série inclui dois modelos: Qwen2.5-Coder-1.5B e Qwen2.5-Coder-7B. Como modelo específico de código, o Qwen2.5-Coder é construído sobre a arquitetura Qwen2.5 e continua pré-treinado em um vasto corpus de mais de 5,5 trilhões de tokens. Através de limpeza meticulosa de dados, geração escalonável de dados sintéticos e mistura equilibrada de dados, o Qwen2.5-Coder demonstra capacidades impressionantes de geração de código, mantendo a versatilidade geral. O modelo foi avaliado em uma ampla gama de tarefas relacionadas ao código, alcançando desempenho de última geração (SOTA) em mais de 10 benchmarks, incluindo geração, conclusão, raciocínio e reparo de código, superando consistentemente modelos maiores do mesmo tamanho do modelo. Acreditamos que o lançamento da série Qwen2.5-Coder não apenas ampliará os limites da pesquisa em inteligência de código, mas também, por meio de seu licenciamento permissivo, incentivará uma adoção mais ampla por parte dos desenvolvedores em aplicações do mundo real. |
18 de setembro de 2024 | Um estudo controlado sobre extensão e generalização de contexto longo em LLMs | A ampla compreensão textual e a aprendizagem contextual exigem modelos de linguagem que utilizem contextos completos de documentos. Devido aos desafios de implementação associados ao treinamento direto de modelos de contexto longo, muitos métodos foram propostos para estender modelos para lidar com contextos longos. No entanto, devido às diferenças nos dados e nas classes de modelos, tem sido um desafio comparar estas abordagens, levando à incerteza sobre como avaliar o desempenho em contextos longos e se este difere da avaliação padrão. Implementamos um protocolo controlado para métodos de extensão com avaliação padronizada, utilizando modelos de base consistentes e dados de extensão. Nosso estudo produz vários insights sobre o comportamento de longo contexto. Primeiro, reafirmamos o papel crítico da perplexidade como um indicador de desempenho de uso geral, mesmo em tarefas de contexto mais longo. Em segundo lugar, descobrimos que os métodos atuais de atenção aproximada apresentam desempenho sistematicamente inferior em tarefas de contexto longo. Finalmente, confirmamos que os métodos baseados no ajuste fino exato são geralmente eficazes dentro da faixa de sua extensão, enquanto a extrapolação permanece desafiadora. Todas as bases de código, modelos e pontos de verificação serão disponibilizados em código aberto, promovendo a transparência e facilitando futuras pesquisas nesta área crítica do desenvolvimento da IA. |
18 de setembro de 2024 | LLMs + Persona-Plug = LLMs personalizados | A personalização desempenha um papel crítico em inúmeras tarefas e aplicações linguísticas, uma vez que os utilizadores com os mesmos requisitos podem preferir resultados diversos com base nos seus interesses individuais. Isto levou ao desenvolvimento de várias abordagens personalizadas destinadas a adaptar grandes modelos de linguagem (LLMs) para gerar resultados personalizados alinhados com as preferências do usuário. Alguns deles envolvem o ajuste fino de um LLM personalizado exclusivo para cada usuário, o que é muito caro para uma aplicação generalizada. Abordagens alternativas introduzem informações de personalização de maneira plug-and-play, recuperando os textos históricos relevantes do usuário como demonstrações. No entanto, esta estratégia baseada na recuperação pode quebrar a continuidade do histórico do usuário e não conseguir capturar os estilos e padrões gerais do usuário, levando assim a um desempenho abaixo do ideal. Para enfrentar esses desafios, propomos um novo modelo LLM personalizado, o nosso{}. Ele constrói uma incorporação específica do usuário para cada indivíduo, modelando todos os seus contextos históricos por meio de um módulo de incorporação de usuário plug-in leve. Ao anexar esta incorporação à entrada da tarefa, os LLMs podem compreender e capturar melhor os hábitos e preferências do usuário, produzindo assim resultados mais personalizados sem ajustar seus próprios parâmetros. Extensos experimentos em várias tarefas no benchmark de personalização de modelo de linguagem (LaMP) demonstram que o modelo proposto supera significativamente as abordagens LLM personalizadas existentes. |
17 de setembro de 2024 | NVLM: LLMs multimodais de classe de fronteira aberta | Apresentamos o NVLM 1.0, uma família de modelos de linguagem multimodais (LLMs) de classe de fronteira que alcançam resultados de última geração em tarefas de linguagem de visão, rivalizando com os principais modelos proprietários (por exemplo, GPT-4o) e de acesso aberto. modelos (por exemplo, Llama 3-V 405B e InternVL 2). Notavelmente, o NVLM 1.0 mostra melhor desempenho somente de texto em seu backbone LLM após o treinamento multimodal. Em termos de design de modelo, realizamos uma comparação abrangente entre LLMs multimodais somente decodificadores (por exemplo, LLaVA) e modelos baseados em atenção cruzada (por exemplo, Flamingo). Com base nos pontos fortes e fracos de ambas as abordagens, propomos uma nova arquitetura que aumenta a eficiência do treinamento e as capacidades de raciocínio multimodal. Além disso, introduzimos um design de marcação de blocos 1-D para imagens dinâmicas de alta resolução baseadas em blocos, o que aumenta significativamente o desempenho em raciocínio multimodal e tarefas relacionadas a OCR. Em relação aos dados de treinamento, selecionamos meticulosamente e fornecemos informações detalhadas sobre nosso pré-treinamento multimodal e conjuntos de dados de ajuste fino supervisionados. Nossas descobertas indicam que a qualidade do conjunto de dados e a diversidade de tarefas são mais importantes do que a escala, mesmo durante a fase de pré-treinamento, em todas as arquiteturas. Notavelmente, desenvolvemos multimodalidade de nível de produção para os modelos NVLM-1.0, permitindo que eles se destaquem em tarefas de linguagem de visão, mantendo e até mesmo melhorando o desempenho somente texto em comparação com seus backbones LLM. Para conseguir isso, criamos e integramos um conjunto de dados somente texto de alta qualidade no treinamento multimodal, juntamente com uma quantidade substancial de dados matemáticos e de raciocínio multimodais, levando a recursos aprimorados de matemática e codificação em todas as modalidades. Para avançar na pesquisa na área, estamos divulgando os pesos do modelo e abriremos o código para a comunidade: https://nvlm-project.github.io/. |
17 de setembro de 2024 | Promptriever: Retrievers treinados em instruções podem ser solicitados como modelos de linguagem | Os modelos de linguagem ajustados por instrução (LM) são capazes de responder a comandos imperativos, fornecendo uma interface de usuário mais natural em comparação com suas contrapartes básicas. Neste trabalho apresentamos o Promptriever, o primeiro modelo de recuperação capaz de ser solicitado como um LM. Para treinar o Promptriever, selecionamos e lançamos um novo conjunto de treinamento de instruções em nível de instância do MS MARCO, abrangendo quase 500 mil instâncias. O Promptriever não apenas alcança um excelente desempenho em tarefas de recuperação padrão, mas também segue instruções. Observamos: (1) grandes ganhos (alcançando SoTA) ao seguir instruções de relevância detalhadas (+14,3 p-MRR / +3,1 nDCG no FollowIR), (2) robustez significativamente aumentada para escolhas lexicais/frases na consulta+instrução (+12,9 Robustness@10 no InstructIR) e (3) a capacidade de realizar pesquisa de hiperparâmetros por meio de prompts para melhorar de forma confiável o desempenho de recuperação (+1,4 aumento médio no BEIR). O Promptriever demonstra que os modelos de recuperação podem ser controlados com prompts por consulta, preparando o terreno para trabalhos futuros alinhando técnicas de prompts LM com recuperação de informações. |
17 de setembro de 2024 | Uma avaliação abrangente de grandes modelos de linguagem quantizados e ajustados por instrução: uma análise experimental até 405B | Trabalhos de pesquisa anteriores avaliaram LLMs quantizados usando métricas limitadas, como perplexidade ou algumas tarefas de conhecimento básico e conjuntos de dados antigos. Além disso, modelos recentes de grande escala, como o Llama 3.1 com até 405B, não foram examinados minuciosamente. Este artigo avalia o desempenho de LLMs ajustados por instrução em vários métodos de quantização (GPTQ, AWQ, SmoothQuant e FP8) em modelos que variam de 7B a 405B. Usando 13 benchmarks, avaliamos o desempenho em seis tipos de tarefas: perguntas e respostas de bom senso, conhecimento e compreensão da linguagem, seguimento de instruções, detecção de alucinações, matemática e diálogo. Nossas principais descobertas revelam que (1) quantizar um LLM maior para um tamanho semelhante a um LLM FP16 menor geralmente tem melhor desempenho na maioria dos benchmarks, exceto para detecção de alucinações e seguimento de instruções; (2) o desempenho varia significativamente com diferentes métodos de quantização, tamanho do modelo e largura de bits, com métodos somente de peso geralmente produzindo melhores resultados em modelos maiores; (3) a dificuldade da tarefa não afeta significativamente a degradação da precisão devido à quantização; e (4) o método de avaliação MT-Bench tem poder discriminatório limitado entre LLMs recentes de alto desempenho. |
16 de setembro de 2024 | RetrievalAttention: Acelerando a inferência LLM de longo contexto por meio da recuperação de vetores | Grandes Modelos de Linguagem (LLMs) baseados em transformadores tornaram-se cada vez mais importantes. No entanto, devido à complexidade de tempo quadrática da computação de atenção, escalar LLMs para contextos mais longos incorre em latência de inferência extremamente lenta e alto consumo de memória da GPU para armazenar em cache vetores de valor-chave (KV). Este artigo propõe RetrievalAttention, uma abordagem sem treinamento para acelerar o cálculo da atenção e reduzir o consumo de memória da GPU. Ao aproveitar o mecanismo dinâmico de dispersão de atenção, RetrievalAttention propõe usar índices aproximados de pesquisa de vizinho mais próximo (ANNS) para vetores KV na memória da CPU e recupera os mais relevantes com pesquisa vetorial durante a geração. Infelizmente, observamos que os índices ANNS prontos para uso são frequentemente ineficazes para tais tarefas de recuperação devido à fora de distribuição (OOD) entre vetores de consulta e vetores-chave no mecanismo de atenção. RetrievalAttention aborda o desafio OOD projetando um algoritmo de pesquisa vetorial com reconhecimento de atenção que pode se adaptar à distribuição de vetores de consulta. Nossa avaliação mostra que RetrievalAttention só precisa acessar 1-3% dos dados, mantendo a alta precisão do modelo. Isso leva a uma redução significativa no custo de inferência de LLMs de contexto longo com consumo de memória de GPU muito menor. Em particular, RetrievalAttention precisa apenas de um único NVIDIA RTX4090 (24 GB) para servir tokens de 128 mil em LLMs com parâmetros de 8B, que é capaz de gerar um token em 0,188 segundos. |
16 de setembro de 2024 | Transformador Kolmogorov-Arnold | Os transformadores são a base do aprendizado profundo moderno. Tradicionalmente, esses modelos contam com camadas perceptron multicamadas (MLP) para misturar as informações entre os canais. Neste artigo, apresentamos o Transformador Kolmogorov-Arnold (KAT), uma nova arquitetura que substitui camadas MLP por camadas da Rede Kolmogorov-Arnold (KAN) para aumentar a expressividade e o desempenho do modelo. Integrar KANs em transformadores, no entanto, não é tarefa fácil, especialmente quando ampliado. Especificamente, identificamos três desafios principais: (C1) Função básica. A função B-spline padrão usada em KANs não é otimizada para computação paralela em hardware moderno, resultando em velocidades de inferência mais lentas. (C2) Parâmetros e Ineficiência de Computação. KAN requer uma função exclusiva para cada par de entrada-saída, tornando o cálculo extremamente grande. (C3) Inicialização do peso. A inicialização de pesos em KANs é particularmente desafiadora devido às suas funções de ativação que podem ser aprendidas, que são críticas para alcançar convergência em redes neurais profundas. Para superar os desafios acima mencionados, propomos três soluções principais: (S1) Base Racional. Substituímos funções B-spline por funções racionais para melhorar a compatibilidade com GPUs modernas. Ao implementar isso em CUDA, alcançamos cálculos mais rápidos. (S2) Grupo KAN. Compartilhamos os pesos de ativação através de um grupo de neurônios, para reduzir a carga computacional sem sacrificar o desempenho. (S3) Inicialização com preservação de variância. Inicializamos cuidadosamente os pesos de ativação para garantir que a variação de ativação seja mantida entre as camadas. Com esses projetos, o KAT escala de maneira eficaz e prontamente supera os transformadores tradicionais baseados em MLP. |
16 de setembro de 2024 | No diagrama de pensamento | Introduzimos o diagrama de pensamento (DOT), uma estrutura que modela o raciocínio iterativo em grandes modelos de idiomas (LLMS) como a construção de um gráfico acíclico direcionado (DAG) em um único modelo. Ao contrário das abordagens tradicionais que representam o raciocínio como cadeias ou árvores lineares, o DOT organiza proposições, críticas, refinamentos e verificações em uma estrutura coesa de DAG, permitindo que o modelo explore vias de raciocínio complexas, mantendo a consistência lógica. Cada nó no diagrama corresponde a uma proposta que foi proposta, criticada, refinada ou verificada, permitindo o LLM para melhorar iterativamente seu raciocínio através do feedback da linguagem natural. Ao alavancar a previsão automática regressiva do próximo toque com tokens específicos de função, o DOT facilita transições perfeitas entre a proposta de idéias e avaliá-las criticamente, fornecendo feedback mais rico do que os sinais binários. Além disso, formalizamos a estrutura do DOT usando a teoria dos topos, fornecendo uma base matemática que garante consistência lógica e solidez no processo de raciocínio. Essa abordagem aprimora os processos de treinamento e inferência em um único LLM, eliminando a necessidade de vários modelos ou mecanismos de controle externo. O DOT oferece uma estrutura conceitual para projetar modelos especiais de raciocínio de próxima geração, enfatizando a eficiência do treinamento, recursos robustos de raciocínio e fundamento teórico. O código está disponível em https://github.com/diagram-of-thought/diagram-of-thought. |
12 de setembro de 2024 | DSbench: Até onde os agentes de ciência de dados se tornam especialistas em ciência de dados? | Modelos de grandes idiomas (LLMS) e grandes modelos de linguagem de visão (LVLMs) demonstraram habilidades impressionantes de raciocínio de linguagem/visão, acendendo a tendência recente de agentes de construção de aplicativos direcionados, como assistentes de compras ou engenheiros de software de IA. Recentemente, muitos benchmarks de ciência de dados foram propostos para investigar seu desempenho no domínio da ciência de dados. No entanto, os benchmarks existentes de ciência de dados ainda ficam aquém quando comparados aos aplicativos de ciência de dados do mundo real devido às suas configurações simplificadas. Para preencher essa lacuna, apresentamos o DSbench, uma referência abrangente projetada para avaliar agentes de ciência de dados com tarefas realistas. Este benchmark inclui 466 tarefas de análise de dados e 74 tarefas de modelagem de dados, provenientes de competições de eloqüência e kaggle. O DSbench oferece uma configuração realista, abrangendo contextos longos, antecedentes de tarefas multimodais, raciocínio com grandes arquivos de dados e estruturas multi-tabela e executando tarefas de modelagem de dados de ponta a ponta. Nossa avaliação dos LLMs, LVLMs e agentes de ponta mostra que eles lutam com a maioria das tarefas, com o melhor agente resolvendo apenas 34,12% das tarefas de análise de dados e alcançando uma lacuna de desempenho relativa de 34,74% (RPG). Essas descobertas enfatizam a necessidade de novos avanços no desenvolvimento de agentes de ciência de dados mais práticos, inteligentes e autônomos. |
10 de setembro de 2024 | Pingpong: uma referência para modelos de linguagem de interpretação de papéis com emulação do usuário e avaliação de vários modelos | Introduzimos uma nova referência para avaliar os recursos de interpretação de papéis dos modelos de idiomas. Nossa abordagem aproveita os modelos de idiomas para imitar os usuários em conversas dinâmicas e com várias turnos e avaliar os diálogos resultantes. A estrutura consiste em três componentes principais: um modelo de jogador assumindo uma função de caractere específica, um modelo de interrogador simulando o comportamento do usuário e um modelo de juiz avaliando a qualidade da conversa. Realizamos experimentos comparando avaliações automatizadas com anotações humanas para validar nossa abordagem, demonstrando fortes correlações em vários critérios. Este trabalho fornece uma base para uma avaliação robusta e dinâmica dos recursos do modelo em cenários interativos. |
10 de setembro de 2024 | LLAMA-OMNI: Interação da fala perfeita com grandes modelos de linguagem | Modelos como o GPT-4O ativam a interação em tempo real com grandes modelos de idiomas (LLMS) através da fala, aumentando significativamente a experiência do usuário em comparação com a interação tradicional baseada em texto. No entanto, ainda há uma falta de exploração sobre como criar modelos de interação de fala com base nos LLMs de código aberto. Para abordar isso, propomos Llama-Omni, uma nova arquitetura de modelo projetada para interação da fala de baixa e alta qualidade com os LLMs. Llama-omni integra um codificador de fala pré-traçado, um adaptador de fala, um LLM e um decodificador de fala. Ele elimina a necessidade de transcrição da fala e pode gerar simultaneamente respostas de texto e fala diretamente das instruções de fala com latência extremamente baixa. Construímos nosso modelo com base no mais recente modelo LLAMA-3.1-8B-INUTRUTA. Para alinhar o modelo aos cenários de interação da fala, construímos um conjunto de dados chamado Instructs2S-200k, que inclui 200 mil instruções de fala e respostas de fala correspondentes. Resultados experimentais mostram que, em comparação com os modelos anteriores da fala, o LLama-OMNI fornece melhores respostas no conteúdo e no estilo, com uma latência de resposta tão baixa quanto 226ms. Além disso, o treinamento de llama-omni leva menos de 3 dias em apenas 4 GPUs, abrindo caminho para o desenvolvimento eficiente de modelos de fala no futuro. |
10 de setembro de 2024 | Os grandes modelos de idiomas podem desbloquear novas idéias de pesquisa científica? | "Uma idéia não passa de nada mais, nem menos que uma nova combinação de elementos antigos" (jovem, JW). A adoção generalizada de grandes modelos de idiomas (LLMS) e o ChatGPT disponível publicamente marcaram um ponto de virada significativo na integração da inteligência artificial (AI) na vida cotidiana das pessoas. Este estudo explora a capacidade do LLMS na geração de novas idéias de pesquisa com base em informações de trabalhos de pesquisa. Realizamos um exame completo de 4 LLMs em cinco domínios (por exemplo, química, computação, economia, médica e física). Descobrimos que as futuras idéias de pesquisa geradas por Claude-2 e GPT-4 estão mais alinhadas com a perspectiva do autor do que o GPT-3.5 e Gemini. Também descobrimos que Claude-2 gera idéias de pesquisa futuras mais diversas que o GPT-4, GPT-3.5 e Gemini 1.0. Realizamos ainda uma avaliação humana da novidade, relevância e viabilidade das idéias de pesquisa futuras geradas. Esta investigação oferece informações sobre o papel em evolução do LLMS na geração de idéias, destacando sua capacidade e limitações. Nosso trabalho contribui para os esforços contínuos na avaliação e utilização de modelos de linguagem para gerar futuras idéias de pesquisa. Disponibilizamos nossos conjuntos de dados e códigos publicamente. |
9 de setembro de 2024 | SongCreator: Lyrics Based Universal Song Generation | A música é parte integrante da cultura humana, incorporando a inteligência e a criatividade humanas, das quais as músicas compõem uma parte essencial. Embora vários aspectos da geração de músicas tenham sido explorados por trabalhos anteriores, como cantar voz, composição vocal e arranjo instrumental, etc., gerar músicas com vocais e acompanhamento, dadas as letras continuam sendo um desafio significativo, dificultando a aplicação de modelos de geração musical no mundo real. Nesta luz, propomos o Songcreator, um sistema de geração de músicas projetado para enfrentar esse desafio. O modelo apresenta dois novos designs: um modelo de linguagem de sequência dupla (DSLM) meticulosamente projetada para capturar as informações dos vocais e o acompanhamento para a geração de músicas, e uma estratégia de máscara de atenção adicional para DSLM, que permite que nosso modelo compreenda, gerar e editar músicas , tornando-o adequado para várias tarefas de geração relacionadas a músicas. Experiências extensas demonstram a eficácia do Songcreator, alcançando performances de última geração ou competitivas em todas as oito tarefas. Notavelmente, supera os trabalhos anteriores por uma grande margem em letras para música e letras para os vocais. Além disso, é capaz de controlar independentemente as condições acústicas dos vocais e o acompanhamento na música gerada por meio de diferentes instruções, exibindo sua aplicabilidade potencial. Nossas amostras estão disponíveis em https://songcreator.github.io/. |
9 de setembro de 2024 | Hiperagente: agentes generalistas de engenharia de software para resolver tarefas de codificação em escala | Os grandes modelos de idiomas (LLMs) revolucionaram a engenharia de software (SE), demonstrando recursos notáveis em várias tarefas de codificação. Embora os esforços recentes tenham produzido agentes de software autônomos com base no LLMS para tarefas de desenvolvimento de ponta a ponta, esses sistemas são normalmente projetados para tarefas SE específicas. Introduzimos o HyPeragent, um novo sistema multi-agente generalista projetado para abordar um amplo espectro de tarefas de SE em diferentes linguagens de programação, imitando os fluxos de trabalho dos desenvolvedores humanos. Compreendendo quatro agentes especializados - planejador, navegador, editor de código e executor. O HyperaGent gerencia o ciclo de vida completo das tarefas de SE, da concepção inicial à verificação final. Por meio de avaliações extensas, o HiPeragent alcança o desempenho de ponta em diversas tarefas de SE: atinge uma taxa de sucesso de 25,01% na lite do swe-banch-lite e 31,40% na verificação da SWE para a resolução de problemas do GitHub, superando os métodos existentes. Além disso, o HiPeragent demonstra o desempenho do SOTA na geração de código no nível do repositório (RepoExec) e, em localização de falhas e reparo do programa (Defeitos4J), geralmente supera os sistemas especializados. Este trabalho representa um avanço significativo em relação a agentes autônomos versáteis, capazes de lidar com tarefas complexas e em várias etapas em vários domínios e idiomas, potencialmente transformando as práticas de desenvolvimento de software assistidas pela AI. |
9 de setembro de 2024 | Memorag: movendo-se em direção ao trapo de próxima geração por meio de descoberta de conhecimento inspirada na memória | A geração de recuperação de recuperação (RAG) aproveita as ferramentas de recuperação para acessar bancos de dados externos, aumentando assim a qualidade da geração de grandes modelos de linguagem (LLMS) através do contexto otimizado. No entanto, os métodos de recuperação existentes são restringidos inerentemente, pois eles só podem executar a correspondência de relevância entre consultas explicitamente declaradas e conhecimento bem formado, mas incapaz de lidar com tarefas que envolvem necessidades de informações ambíguas ou conhecimento não estruturado. Consequentemente, os sistemas de pano existentes são principalmente eficazes para tarefas diretas de resposta a perguntas. Neste trabalho, propomos memorag, um novo paradigma de geração de recuperação de recuperação capacitada pela memória de longo prazo. O Memorag adota uma arquitetura de sistema duplo. Por um lado, emprega um LLM leve, mas de longo alcance, para formar a memória global do banco de dados. Depois que uma tarefa é apresentada, ele gera respostas de rascunho, agrupando as ferramentas de recuperação para localizar informações úteis no banco de dados. Por outro lado, aproveita um LLM caro, mas expressivo, que gera a resposta final com base nas informações recuperadas. Com base nessa estrutura geral, otimizamos ainda mais o desempenho do Memorag, aprimorando seu mecanismo e capacidade de memorização. Em nosso experimento, o Memorag atinge o desempenho superior em uma variedade de tarefas de avaliação, incluindo as complexas, onde o pano convencional falha e as diretas onde o RAG é comumente aplicado. |
8 de setembro de 2024 | OneGen: geração unificada e eficiente de uma passagem e recuperação para LLMS | Apesar dos recentes avanços em grandes modelos de idiomas (LLMS), que aumentaram significativamente os recursos generativos para várias tarefas de PNL, o LLMS ainda enfrenta limitações no tratamento diretamente de tarefas de recuperação. No entanto, muitas aplicações práticas exigem a integração perfeita da recuperação e da geração. Este artigo apresenta uma geração de uma passagem nova e eficiente e estrutura de recuperação (OneGen), projetada para melhorar o desempenho da LLMS em tarefas que exigem geração e recuperação. A estrutura proposta preenche as abordagens de treinamento tradicionalmente separadas para geração e recuperação, incorporando os tokens de recuperação gerados de forma autorregressiva. Isso permite que um único LLM lide com as duas tarefas simultaneamente em um passe para a frente unificado. Realizamos experimentos em dois tipos distintos de tarefas compostas, RAG e entidade vinculando, para validar a proposta, eficácia e eficiência do OneGen no treinamento e inferência. Além disso, nossos resultados mostram que a integração de geração e recuperação no mesmo contexto preserva os recursos generativos do LLMS enquanto melhoram o desempenho da recuperação. Até onde sabemos, o OneGen é o primeiro a permitir que o LLMS conduza a recuperação de vetores durante a geração. |
6 de setembro de 2024 | Copiloto de papel: um sistema LLM auto-eficiente e eficiente para assistência acadêmica personalizada | À medida que a pesquisa científica prolifera, os pesquisadores enfrentam a tarefa assustadora de navegar e ler grandes quantidades de literatura. As soluções existentes, como o controle de qualidade do documento, não fornecem informações personalizadas e atualizadas com eficiência. Apresentamos o artigo Copilot, um sistema LLM eficiente e eficiente, projetado para ajudar os pesquisadores, com base em otimização do pensamento, perfil de usuário e alto desempenho. Especificamente, o Paper Copilot pode oferecer serviços de pesquisa personalizados, mantendo um banco de dados atualizado em tempo real. A avaliação quantitativa demonstra que o copiloto de papel economiza 69,92% do tempo após a implantação eficiente. Este artigo detalha o design e a implementação do artigo Copilot, destacando suas contribuições para o apoio acadêmico personalizado e seu potencial para otimizar o processo de pesquisa. |
5 de setembro de 2024 | Chefes de atenção de grandes modelos de idiomas: uma pesquisa | Desde o advento do ChatGPT, os grandes modelos de idiomas (LLMs) se destacaram em várias tarefas, mas permanecem como sistemas de caixa preta. Consequentemente, os gargalos de raciocínio dos LLMs são influenciados principalmente por sua arquitetura interna. Como resultado, muitos pesquisadores começaram a explorar os potenciais mecanismos internos do LLMS, com a maioria dos estudos focando em cabeças de atenção. Nossa pesquisa tem como objetivo esclarecer os processos internos de raciocínio dos LLMs, concentrando -se nos mecanismos subjacentes das cabeças de atenção. Primeiro, destilarmos o processo de pensamento humano em uma estrutura de quatro estágios: Recordamento do conhecimento, identificação no contexto, raciocínio latente e preparação de expressão. Usando essa estrutura, revisamos sistematicamente a pesquisa existente para identificar e categorizar as funções de cabeças de atenção específicas. Além disso, resumimos as metodologias experimentais usadas para descobrir essas cabeças especiais, dividindo-as em duas categorias: métodos livres de modelagem e métodos de modelagem. Além disso, descrevemos os métodos de avaliação relevantes e os benchmarks. Finalmente, discutimos as limitações da pesquisa atual e propomos várias direções futuras em potencial. |
5 de setembro de 2024 | Como o seu código LLMS se executa? Capacitar o ajuste da instrução de código com dados de alta qualidade | Recentemente, tem havido um interesse crescente em estudar como construir melhores dados de ajuste de instrução de código. No entanto, observamos que os modelos de código treinados com esses conjuntos de dados exibem alto desempenho no Humaneval, mas com desempenho pior em outros benchmarks, como o LivecodeBench. Após uma investigação mais aprofundada, descobrimos que muitos conjuntos de dados sofrem de vazamento grave de dados. Depois de limpar a maioria dos dados vazados, alguns conjuntos de dados bem conhecidos de alta qualidade têm um desempenho ruim. Essa descoberta revela um novo desafio: identificar quais conjuntos de dados se qualificam genuinamente como dados de instrução de código de alta qualidade. Para abordar isso, propomos uma estratégia de poda de dados de código eficiente para selecionar boas amostras. Nossa abordagem é baseada em três dimensões: complexidade das instruções, qualidade da resposta e diversidade de instruções. Com base em nossos dados selecionados, apresentamos o Xcoder, uma família de modelos FinetUned da LLAMA3. Nossos experimentos mostram que o Xcoder alcança um novo desempenho de última geração usando menos dados de treinamento, que verificam a eficácia de nossa estratégia de dados. Além disso, realizamos uma análise abrangente sobre a composição dos dados e descobrimos que os conjuntos de dados de código existentes têm características diferentes de acordo com seus métodos de construção, que fornecem novas idéias para o Future Code LLMS. Nossos modelos e conjunto de dados são lançados em https://github.com/banksy23/xcoder |
5 de setembro de 2024 | De MOOC ao MAIC: Remodelando o ensino e a aprendizagem on-line por meio de agentes orientados para LLM | Desde os primeiros casos de educação on -line, onde os cursos foram enviados para plataformas on -line acessíveis e compartilhadas, essa forma de escalar a disseminação do conhecimento humano para alcançar um público mais amplo provocou uma discussão extensa e a adoção generalizada. Reconhecendo que a aprendizagem personalizada ainda possui um potencial significativo de melhoria, novas tecnologias de IA foram continuamente integradas a esse formato de aprendizado, resultando em uma variedade de aplicativos educacionais de IA, como recomendação educacional e tutoria inteligente. O surgimento da inteligência em grandes modelos de idiomas (LLMS) permitiu que esses aprimoramentos educacionais fossem construídos sobre um modelo fundamental unificado, permitindo uma integração mais profunda. Nesse contexto, propomos o MAIC (Curso Massivo Ai-Empowered), uma nova forma de educação on-line que utiliza sistemas multi-agentes orientados a LLM para construir uma sala de aula de uidões da AI, equilibrando escalabilidade com adaptividade. Além de explorar a estrutura conceitual e as inovações técnicas, realizamos experimentos preliminares na Universidade de Tsinghua, uma das principais universidades da China. Com mais de 100.000 registros de aprendizado de mais de 500 alunos, obtemos uma série de observações valiosas e análises iniciais. Este projeto continuará evoluindo, pretendendo estabelecer uma plataforma aberta abrangente que suporta e unifique pesquisas, tecnologia e aplicações na exploração das possibilidades de educação on -line na era da grande modelo AI. Prevemos essa plataforma como um centro colaborativo, reunindo educadores, pesquisadores e inovadores para explorar coletivamente o futuro da educação on-line orientada por IA. |
4 de setembro de 2024 | Longcite: permitindo que o LLMS gere citações de refrigeração fina em QA de longa data | Embora os atuais modelos de grandes idiomas (LLMS) tenham demonstrado capacidades impressionantes para responder às perguntas dos usuários com base em texto extenso, a falta de citações em suas respostas dificulta a verificação do usuário, levando a preocupações sobre sua confiabilidade devido a suas possíveis alucinações. Neste trabalho, pretendemos permitir que os LLMs de longo contexto gerem respostas com citações de nível de sentença fina, melhorando sua fidelidade e verificabilidade. Primeiro, introduzimos o Longbench-Cite, uma referência automatizada para avaliar o desempenho atual do LLMS na resposta de perguntas de longo contexto com citações (LQAC), revelando um espaço considerável para melhorias. Para esse fim, propomos o COF (grosso a fino), um novo pipeline que utiliza LLMs no ar livre para gerar automaticamente instâncias de controle de qualidade de longo contexto com citações precisas no nível da sentença e aproveitar esse pipeline para construir Longcite-45K, a A, um conjunto de dados SFT em larga escala para LQAC. Finalmente, treinamos o Longcite-8B e o Longcite-9b usando o conjunto de dados LongCite-45K, permitindo com sucesso sua geração de respostas precisas e citações no nível da sentença de granulação fina em uma única saída. Os resultados da avaliação no Cite de Longbench mostram que nossos modelos treinados alcançam a qualidade da citação de última geração, superando modelos proprietários avançados, incluindo o GPT-4O. |
4 de setembro de 2024 | Longlllava: Escalando LLMs multimodais para 1000 imagens com eficiência por meio de uma arquitetura híbrida | Expandir os recursos de longo contexto de modelos de linguagem grande multimodal ~ (MLLMS) é crucial para a compreensão de vídeo, entendimento de imagem de alta resolução e agentes multimodais. Isso envolve uma série de otimizações sistemáticas, incluindo arquitetura de modelos, construção de dados e estratégia de treinamento, abordando particularmente desafios como textit {desempenho degradado com mais imagens} e textit {altos custos computacionais}. Neste artigo, adaptamos a arquitetura do modelo a um híbrido de blocos de Mamba e transformadores, abordam a construção de dados com dependências temporais e espaciais entre várias imagens e empregamos uma estratégia de treinamento progressiva. O modelo liberado textBf {longlllava} ~ ( textbf {long} -Context textbf {l} arge textbf {l} angigula textbf {a}} textbf {v} ision textbf {a} O primeiro MLLM híbrido, que alcançou um melhor equilíbrio entre eficiência e eficácia. Longllava não apenas alcança resultados competitivos em vários benchmarks, mas também mantém alta taxa de transferência e baixo consumo de memória. Especialmente, poderia processar quase mil imagens em uma única GPU A100 80 GB, mostrando perspectivas promissoras de aplicativos para uma ampla gama de tarefas. |
4 de setembro de 2024 | Em direção a uma visão unificada do aprendizado de preferência para grandes modelos de idiomas: uma pesquisa | Grandes modelos de idiomas (LLMS) exibem recursos notavelmente poderosos. Um dos fatores cruciais para alcançar o sucesso é alinhar a produção do LLM com as preferências humanas. Esse processo de alinhamento geralmente requer apenas uma pequena quantidade de dados para aprimorar com eficiência o desempenho do LLM. Embora eficazes, a pesquisa nessa área abrange vários domínios e os métodos envolvidos são relativamente complexos de entender. As relações entre diferentes métodos foram subexploradas, limitando o desenvolvimento do alinhamento de preferência. À luz disso, dividimos as estratégias de alinhamento popular existentes em diferentes componentes e fornecemos uma estrutura unificada para estudar as estratégias atuais de alinhamento, estabelecendo assim conexões entre elas. Nesta pesquisa, decompomos todas as estratégias de aprendizado de preferência em quatro componentes: modelo, dados, feedback e algoritmo. Essa visão unificada oferece uma compreensão aprofundada dos algoritmos de alinhamento existentes e também abre possibilidades para sinergizar os pontos fortes de diferentes estratégias. Além disso, apresentamos exemplos detalhados de trabalho de algoritmos existentes predominantes para facilitar um entendimento abrangente para os leitores. Finalmente, com base em nossa perspectiva unificada, exploramos os desafios e as instruções de pesquisas futuras para alinhar grandes modelos de linguagem com preferências humanas. |
4 de setembro de 2024 | Construindo agentes de matemática com aprendizado de preferência iterativa de várias turbadas | Estudos recentes mostraram que os recursos de resolução de problemas matemáticos dos modelos de grandes modelos de idiomas podem ser aprimorados pela integração de ferramentas externas, como interpretadores de código e empregando o raciocínio de multi-turning de cadeia de pensamento (COT). Embora os métodos atuais se concentrem na geração de dados sintéticos e no ajuste fino supervisionado (SFT), este artigo estuda a abordagem complementar de aprendizado de preferência direta para melhorar ainda mais o desempenho do modelo. No entanto, os algoritmos de aprendizado de preferência direta existentes são originalmente projetados para a tarefa de bate-papo única e não abordam completamente as complexidades do raciocínio múltiplo e da integração externa de ferramentas necessárias para tarefas de raciocínio matemático integrado à ferramenta. Para preencher essa lacuna, introduzimos uma estrutura de aprendizado de preferência direta de várias turnos, adaptada para esse contexto, que aproveita o feedback dos intérpretes de código e otimiza as preferências de nível de trajetória. Essa estrutura inclui o DPO multi-turb e o KTO de várias turnos como implementações específicas. A eficácia de nossa estrutura é validada através do treinamento de vários modelos de idiomas usando um conjunto de prompt aumentado dos conjuntos de dados GSM8K e Math. Nossos resultados demonstram melhorias substanciais: um desempenho do modelo Gemma-1.1-7b supervisionado supervisionado aumentou de 77,5% para 83,9% no GSM8K e de 46,1% para 51,2% em matemática. Da mesma forma, um modelo GEMMA-2-IT-9B melhorou de 84,1% para 86,3% no GSM8K e de 51,0% para 54,5% em matemática. |
3 de setembro de 2024 | Olmoe: Modelos de idiomas de mistura de experts abertos | Introduzimos Olmoe, um modelo de idioma totalmente aberto e de última geração que alavancava a mistura de especialistas esparsos (MOE). O OLMOE-1B-7B possui 7 bilhões de parâmetros (b), mas usa apenas 1b por token de entrada. Pré-tenei em 5 trilhões de tokens e o adaptamos ainda mais para criar a instrução olmoe-1b-7b. Nossos modelos superam todos os modelos disponíveis com parâmetros ativos semelhantes, superando até maiores, como LLAMA2-13B-CAT e Deepseekmoe-16b. Apresentamos vários experimentos sobre treinamento de MOE, analisamos o roteamento em nosso modelo mostrando alta especialização e de código aberto todos os aspectos de nosso trabalho: pesos do modelo, dados de treinamento, código e logs. |
2 de setembro de 2024 | Genagent: Construa sistemas de IA colaborativos com geração automatizada de fluxo de trabalho - estudos de caso em conformidade | Muita pesquisa anterior de IA se concentrou no desenvolvimento de modelos monolíticos para maximizar sua inteligência e capacidade, com o objetivo principal de aumentar o desempenho em tarefas específicas. Por outro lado, este artigo explora uma abordagem alternativa: sistemas de IA colaborativos que usam fluxos de trabalho para integrar modelos, fontes de dados e pipelines para resolver tarefas complexas e diversas. Introduzimos a Genagent, uma estrutura baseada em LLM que gera automaticamente fluxos de trabalho complexos, oferecendo maior flexibilidade e escalabilidade em comparação com modelos monolíticos. A inovação central do Genagent reside em representar fluxos de trabalho com código, além da construção de fluxos de trabalho com agentes colaborativos de maneira passo a passo. Implementamos o Genagent na plataforma conforfyui e propomos uma nova referência, OpenComfy. Os resultados demonstram que a genagente supera as abordagens de linha de base nas avaliações de nível de execução e no nível da tarefa, mostrando sua capacidade de gerar fluxos de trabalho complexos com eficácia e estabilidade superiores. |
2 de setembro de 2024 | Videollamb: entendimento de vídeo de longo contexto com pontes de memória recorrentes | Avanços recentes em modelos em larga escala em vídeo mostraram potencial significativo para planejamento em tempo real e interações detalhadas. No entanto, suas altas demandas computacionais e a escassez de conjuntos de dados anotados limitam sua praticidade para os pesquisadores acadêmicos. Neste trabalho, apresentamos a Videollamb, uma nova estrutura que utiliza tokens de memória temporal nas camadas de ponte para permitir a codificação de sequências de vídeo inteiras ao lado de dados visuais históricos, preservando efetivamente a continuidade semântica e aprimorando o desempenho do modelo em várias tarefas. Essa abordagem inclui tokens de memória recorrente e um algoritmo de cenário, que segmenta vídeos em unidades semânticas independentes para preservar a integridade semântica. Empiricamente, o Videollamb supera significativamente os modelos existentes de linguagem de vídeo, demonstrando uma melhoria de 5,5 pontos em relação aos seus concorrentes em três benchmarks de vídeoqa e 2,06 pontos no planejamento egocêntrico. Resultados abrangentes no MVBench mostram que o Videollamb-7b alcança resultados marcadamente melhores do que os modelos 7B anteriores do mesmo LLM. Notavelmente, mantém um desempenho robusto como Pllava, mesmo quando o comprimento do vídeo aumenta até 8 vezes. Além disso, os resultados da recuperação de quadros em nossa agulha especializada em uma referência de vídeo Haystack (NIAVH) validam ainda mais a proeza do Videollamb em identificar com precisão quadros específicos em vídeos longos. Nosso algoritmo de cenário também permite diretamente a geração de legendas de vídeo, sem exigir treinamento adicional. Em termos de eficiência, o Videollamb, treinado em 16 quadros, suporta até 320 quadros em uma única GPU da NVIDIA A100 com escala de memória GPU linear, garantindo alto desempenho e custo-efetividade, definindo uma nova base para a língua de vídeo longa Modelos em aplicações acadêmicas e práticas. |
1º de setembro de 2024 | ContextCite: atribuindo geração de modelos ao contexto | Como os modelos de idiomas usam as informações fornecidas como contexto ao gerar uma resposta? Podemos inferir se uma declaração gerada específica está realmente fundamentada no contexto, uma interpretação errônea ou fabricada? Para ajudar a responder a essas perguntas, apresentamos o problema da atribuição de contexto: identificando as partes do contexto (se houver) que levassem um modelo a gerar uma declaração específica. Em seguida, apresentamos o ContextCite, um método simples e escalável para atribuição de contexto que pode ser aplicada no topo de qualquer modelo de idioma existente. Finalmente, mostramos a utilidade do ContextCite através de três aplicações: (1) ajudar a verificar as declarações geradas (2) melhorando a qualidade da resposta, podando o contexto e (3) detectar ataques de envenenamento. Fornecemos código para o ContextCite em https://github.com/madrylab/context-cite. |
31 de agosto de 2024 | Longrecipe: Receita para generalização eficiente de contexto longo em grandes modelos de idiomas | Os grandes modelos de idiomas (LLMS) enfrentam desafios significativos no manuseio de tarefas de longo contexto devido ao seu tamanho limitado de janela de contexto eficaz durante o pré-treinamento, o que restringe sua capacidade de generalizar sequências estendidas. Enquanto isso, estender a janela de contexto nos LLMs através da pré-admissão é altamente intensiva em recursos. Para abordar isso, introduzimos o Longrecipe, uma estratégia de treinamento eficiente para estender a janela de contexto do LLMS, incluindo análise impactante do token, transformação do índice de posição e estratégias de otimização de treinamento. Ele simula os insumos de longa sequência, mantendo a eficiência do treinamento e melhora significativamente a compreensão do modelo de dependências de longo alcance. Experimentos em três tipos de LLMs mostram que o Longrecipe pode utilizar sequências longas, exigindo apenas 30% do tamanho da janela do contexto alvo e reduz o recurso de treinamento computacional em mais de 85% em comparação com o treinamento completo de sequência. Além disso, o Longrecipe também preserva os recursos do LLM original em tarefas gerais. Por fim, podemos estender a janela de contexto efetiva dos LLMs de código aberto de 8k a 128k, alcançando o desempenho próximo ao GPT-4 com apenas um dia de treinamento dedicado usando uma única GPU com memória 80G. Nosso código foi lançado em https://github.com/zhiyuanhubj/longrecipe. |
29 de agosto de 2024 | Mini-omni: modelos de idiomas podem ouvir, conversar enquanto pensam em streaming | Os recentes avanços nos modelos de idiomas alcançaram progresso significativo. O GPT-4O, como um novo marco, permitiu conversas em tempo real com os seres humanos, demonstrando fluência natural quase humana. Essa interação humano-computador requer modelos com a capacidade de executar o raciocínio diretamente com a modalidade de áudio e gerar saída no fluxo. No entanto, isso permanece além do alcance dos modelos acadêmicos atuais, pois eles normalmente dependem de sistemas TTS extras para síntese de fala, resultando em latência indesejável. Este artigo apresenta o Mini-Omni, um modelo de conversação de ponta a ponta baseado em áudio, capaz de interação em tempo real da fala. Para alcançar essa capacidade, propomos um método de geração de fala instruído por texto, juntamente com estratégias paralelas em lote durante a inferência para aumentar ainda mais o desempenho. Nosso método também ajuda a manter os recursos de linguagem do modelo original com degradação mínima, permitindo que outros trabalhos estabeleçam recursos de interação em tempo real. Chamamos esse método de treinamento de "qualquer modelo pode falar". Também introduzimos o conjunto de dados VoiceasSistant-400K em modelos de ajuste fino otimizados para saída da fala. Para nosso melhor conhecimento, o Mini-Omni é o primeiro modelo de código aberto, de ponta a ponta, para a interação da fala em tempo real, oferecendo um potencial valioso para pesquisas futuras. |
29 de agosto de 2024 | Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever | Multi-vector dense models, such as ColBERT, have proven highly effective in information retrieval. ColBERT's late interaction scoring approximates the joint query-document attention seen in cross-encoders while maintaining inference efficiency closer to traditional dense retrieval models, thanks to its bi-encoder architecture and recent optimizations in indexing and search. In this work we propose a number of incremental improvements to the ColBERT model architecture and training pipeline, using methods shown to work in the more mature single-vector embedding model training paradigm, particularly those that apply to heterogeneous multilingual data or boost efficiency with little tradeoff . Our new model, Jina-ColBERT-v2, demonstrates strong performance across a range of English and multilingual retrieval tasks. |
28th August 2024 | CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization | Recent advances in text-to-image personalization have enabled high-quality and controllable image synthesis for user-provided concepts. However, existing methods still struggle to balance identity preservation with text alignment. Our approach is based on the fact that generating prompt-aligned images requires a precise semantic understanding of the prompt, which involves accurately processing the interactions between the new concept and its surrounding context tokens within the CLIP text encoder. To address this, we aim to embed the new concept properly into the input embedding space of the text encoder, allowing for seamless integration with existing tokens. We introduce Context Regularization (CoRe), which enhances the learning of the new concept's text embedding by regularizing its context tokens in the prompt. This is based on the insight that appropriate output vectors of the text encoder for the context tokens can only be achieved if the new concept's text embedding is correctly learned. CoRe can be applied to arbitrary prompts without requiring the generation of corresponding images, thus improving the generalization of the learned text embedding. Additionally, CoRe can serve as a test-time optimization technique to further enhance the generations for specific prompts. Comprehensive experiments demonstrate that our method outperforms several baseline methods in both identity preservation and text alignment. Code will be made publicly available. |
28th August 2024 | SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding | Scientific literature understanding is crucial for extracting targeted information and garnering insights, thereby significantly advancing scientific discovery. Despite the remarkable success of Large Language Models (LLMs), they face challenges in scientific literature understanding, primarily due to (1) a lack of scientific knowledge and (2) unfamiliarity with specialized scientific tasks. To develop an LLM specialized in scientific literature understanding, we propose a hybrid strategy that integrates continual pre-training (CPT) and supervised fine-tuning (SFT), to simultaneously infuse scientific domain knowledge and enhance instruction-following capabilities for domain-specific tasks.cIn this process, we identify two key challenges: (1) constructing high-quality CPT corpora, and (2) generating diverse SFT instructions. We address these challenges through a meticulous pipeline, including PDF text extraction, parsing content error correction, quality filtering, and synthetic instruction creation. Applying this strategy, we present a suite of LLMs: SciLitLLM, specialized in scientific literature understanding. These models demonstrate promising performance on scientific literature understanding benchmarks. Our contributions are threefold: (1) We present an effective framework that integrates CPT and SFT to adapt LLMs to scientific literature understanding, which can also be easily adapted to other domains. (2) We propose an LLM-based synthesis method to generate diverse and high-quality scientific instructions, resulting in a new instruction set -- SciLitIns -- for supervised fine-tuning in less-represented scientific domains. (3) SciLitLLM achieves promising performance improvements on scientific literature understanding benchmarks. |
Join 1000+ students on this 10-week adventure as we delve into the application of LLMs across a variety of use cases
?️*Week 1 [Jan 15 2024] *: Practical Introduction to LLMs
?️*Week 2 [Jan 22 2024] *: Prompting and Prompt Engineering
?️*Week 3 [Jan 29 2024] *: LLM Fine-tuning
?️*Week 4 [Feb 5 2024] *: RAG (Retrieval-Augmented Generation)
?️*Week 5 [ Feb 12 2024] *: Tools for building LLM Apps
?️*Week 6 [Feb 19 2024] *: Evaluation Techniques
?️*Week 7 [Feb 26 2024] *: Building Your Own LLM Application
?️*Week 8 [March 4 2024] *: Advanced Features and Deployment
?️*Week 9 [March 11 2024] *: Challenges with LLMs
?️*Week 10 [March 18 2024] *: Emerging Research Trends
?️*Week 11 *Bonus* [March 25 2024] *: Foundations
Large Language Models by ETH Zurich
Understanding Large Language Models by Princeton
Transformers course by Huggingface
NLP course by Huggingface
CS324 - Large Language Models by Stanford
Generative AI with Large Language Models by Coursera
Introduction to Generative AI by Coursera
Generative AI Fundamentals by Google Cloud
Introduction to Large Language Models by Google Cloud
Introduction to Generative AI by Google Cloud
Generative AI Concepts by DataCamp (Daniel Tedesco Data Lead @ Google)
1 Hour Introduction to LLM (Large Language Models) by WeCloudData
LLM Foundation Models from the Ground Up | Primer by Databricks
Generative AI Explained by Nvidia
Transformer Models and BERT Model by Google Cloud
Generative AI Learning Plan for Decision Makers by AWS
Introduction to Responsible AI by Google Cloud
Fundamentals of Generative AI by Microsoft Azure
Generative AI for Beginners by Microsoft
ChatGPT for Beginners: The Ultimate Use Cases for Everyone by Udemy
[1hr Talk] Intro to Large Language Models by Andrej Karpathy
ChatGPT for Everyone by Learn Prompting
Large Language Models (LLMs) (In English) by Kshitiz Verma (JK Lakshmipat University, Jaipur, India)
LLMOps: Building Real-World Applications With Large Language Models by Udacity
Full Stack LLM Bootcamp by FSDL
Generative AI for beginners by Microsoft
Large Language Models: Application through Production by Databricks
Generative AI Foundations by AWS
Introduction to Generative AI Community Course by ineuron
LLM University by Cohere
LLM Learning Lab by Lightning AI
LangChain for LLM Application Development by Deeplearning.AI
LLMOps by DeepLearning.AI
Automated Testing for LLMOps by DeepLearning.AI
Building Generative AI Applications Using Amazon Bedrock by AWS
Efficiently Serving LLMs by DeepLearning.AI
Building Systems with the ChatGPT API by DeepLearning.AI
Serverless LLM apps with Amazon Bedrock by DeepLearning.AI
Building Applications with Vector Databases by DeepLearning.AI
Automated Testing for LLMOps by DeepLearning.AI
Build LLM Apps with LangChain.js by DeepLearning.AI
Advanced Retrieval for AI with Chroma by DeepLearning.AI
Operationalizing LLMs on Azure by Coursera
Generative AI Full Course – Gemini Pro, OpenAI, Llama, Langchain, Pinecone, Vector Databases & More by freeCodeCamp.org
Training & Fine-Tuning LLMs for Production by Activeloop
LangChain & Vector Databases in Production by Activeloop
Reinforcement Learning from Human Feedback by DeepLearning.AI
Building Applications with Vector Databases by DeepLearning.AI
Finetuning Large Language Models by Deeplearning.AI
LangChain: Chat with Your Data by Deeplearning.AI
Building Systems with the ChatGPT API by Deeplearning.AI
Prompt Engineering with Llama 2 by Deeplearning.AI
Building Applications with Vector Databases by Deeplearning.AI
ChatGPT Prompt Engineering for Developers by Deeplearning.AI
Advanced RAG Orchestration series by LlamaIndex
Prompt Engineering Specialization by Coursera
Augment your LLM Using Retrieval Augmented Generation by Nvidia
Knowledge Graphs for RAG by Deeplearning.AI
Open Source Models with Hugging Face by Deeplearning.AI
Vector Databases: from Embeddings to Applications by Deeplearning.AI
Understanding and Applying Text Embeddings by Deeplearning.AI
JavaScript RAG Web Apps with LlamaIndex by Deeplearning.AI
Quantization Fundamentals with Hugging Face by Deeplearning.AI
Preprocessing Unstructured Data for LLM Applications by Deeplearning.AI
Retrieval Augmented Generation for Production with LangChain & LlamaIndex by Activeloop
Quantization in Depth by Deeplearning.AI
If you want to add to the repository or find any issues, please feel free to raise a PR and ensure correct placement within the relevant section or category.
To cite this guide, use the below format:
@article{areganti_generative_ai_guide,
author = {Reganti, Aishwarya Naresh},
journal = {https://github.com/aishwaryanr/awesome-generative-ai-resources},
month = {01},
title = {{Generative AI Guide}},
year = {2024}
}
[MIT License]