Mistral Grande 2 | IA Mistral | 123B | Mistral-Large é um modelo de linguagem grande (LLM) denso e avançado de parâmetros 123B com raciocínio, conhecimento e capacidades de codificação de última geração. Possui janela de contexto de 128k. | Blog Abraçando Rosto |
Lhama 3.1 | Meta IA | 8B, 70B, 405B | A família Meta Llama 3.1 de modelos multilíngues de grandes idiomas (LLMs) é uma coleção de modelos generativos pré-treinados e ajustados por instrução nos tamanhos 8B, 70B e 405B. Os modelos somente de texto ajustados com instruções do Llama 3.1 são otimizados para casos de uso de diálogo multilíngue e superam muitos dos modelos de chat fechado e de código aberto disponíveis em benchmarks comuns do setor. Esses modelos são modelos de linguagem auto-regressivos que usam uma arquitetura de transformador otimizada. As versões ajustadas usam ajuste fino supervisionado (SFT) e aprendizagem por reforço com feedback humano (RLHF) para se alinhar às preferências humanas de utilidade e segurança. | Blog Abraçando Rosto |
Mistral Nemo | Nvidia Mistral IA | 12B | O modelo de linguagem grande Mistral-Nemo é um modelo de texto generativo pré-treinado com parâmetros de 12B treinados em conjunto pela Mistral AI e NVIDIA, que supera significativamente os modelos existentes de tamanho menor ou semelhante. | Blog Abraçando Rosto |
Nemotron 4 | Nvidia | 340B | O modelo básico do Nemotron 4 foi pré-treinado em um corpus de 9 trilhões de tokens que consiste em uma variedade diversificada de textos baseados em inglês, mais de 50 línguas naturais e mais de 40 linguagens de codificação. | Abraçando o rosto |
DCLM | Maçã | 7B | DCLM é um modelo de linguagem Transformer somente decodificador. Possui um comprimento de contexto de 2.048 tokens. Ele é treinado em tokens 2,5T. Ele não passou por alinhamento específico ou ajuste de segurança, portanto as saídas devem ser usadas com cautela. | Abraçando o rosto |
Gema 2 | Google | 9B 27B | Gemma 2 são modelos de linguagem grande de texto para texto, somente decodificador, disponíveis em inglês, com pesos abertos para variantes pré-treinadas e variantes ajustadas por instrução. Os modelos Gemma são adequados para uma variedade de tarefas de geração de texto, incluindo resposta a perguntas, resumo e raciocínio. | Abraçando o rosto |
Camaleão | Meta IA | 7B 30B | Chameleon é um modelo misto de base de fusão precoce da FAIR. Está disponível em 2 tamanhos: 7B e 30B. | Abraçando o rosto Github |
Mistral 7B v3 | IA Mistral | 7B | O modelo de linguagem grande (LLM) Mistral-7B-v0.3 é um Mistral-7B-v0.2 com vocabulário estendido. | Abraçando o rosto Github |
Ártico (Denso-MoE) | Floco de neve | 480B Ativo 17B | Arctic é uma arquitetura de transformador híbrido denso-MoE pré-treinada do zero. Arctic combina um modelo de transformador denso de 10B com um MoE MLP residual de 128x3,66B. O Mistral-7B-v0.3 Large Language Model (LLM) é um Mistral-7B-v0.2 com vocabulário estendido, resultando em 480B no total e 17B de parâmetros ativos escolhido usando um gate top-2. | Blog HuggingFace no Github |
Lhama 3 | Meta IA | 8B 70B | Llama 3 é uma família de grandes modelos de linguagem, uma coleção de modelos de texto generativos pré-treinados e ajustados por instrução em tamanhos 8 e 70B. É um modelo de linguagem auto-regressivo que usa uma arquitetura de transformador otimizada. As versões ajustadas usam ajuste fino supervisionado (SFT) e aprendizado por reforço com feedback humano (RLHF). | HuggingFace Blog Github |
Visão Phi 3 | Microsoft | | Phi3-3-Vision é um modelo multimodal aberto leve e de última geração construído sobre conjuntos de dados que incluem - dados sintéticos e sites filtrados publicamente disponíveis - com foco em dados densos de raciocínio de altíssima qualidade, tanto em texto quanto em visão . Possui comprimento de contexto de 128k. | Abraçando o rosto |
Phi 3 | Microsoft | 3,8B 7B 14B | Phi-3 é uma coleção de modelos. Disponível em vários tamanhos: Phi3-mini, Phi3-pequeno, Phi3-médio. É um modelo aberto leve e de última geração, treinado com conjuntos de dados Phi-3. Este conjunto de dados inclui dados sintéticos e dados de sites disponíveis publicamente, com ênfase em propriedades de alta qualidade e com raciocínio denso. Os modelos Phi-3 são os modelos de linguagem pequena (SLMs) mais capazes e econômicos disponíveis, | Blog HuggingFace |
OpenELM | Maçã | 270M 450M 1.1B 3B | OpenELM, uma família de modelos de linguagem eficientes de código aberto. OpenELM usa uma estratégia de escalonamento em camadas para alocar parâmetros com eficiência dentro de cada camada do modelo do transformador, levando a maior precisão. Treinado em RefinedWeb, PILE desduplicado, um subconjunto de RedPajama e um subconjunto de Dolma v1.6, totalizando aproximadamente 1,8 trilhão de tokens. Lançou modelos pré-treinados e ajustados por instrução com parâmetros 270M, 450M, 1.1B e 3B. | HuggingFace OpenELM HuggingFace OpenELM-Instrução |
Deepseek V2 (MoE) | busca profunda | 236B Ativo 21B | DeepSeek-V2 é um forte modelo de linguagem Mixture-of-Experts (MoE), caracterizado por treinamento econômico e inferência eficiente. É composto por um total de 236B de parâmetros, dos quais 21B são ativados para cada token. Comparado com o DeepSeek 67B, o DeepSeek-V2 atinge um desempenho mais forte e, ao mesmo tempo, economiza 42,5%. | Abraçando o rosto Github |
Mixtral 8x22B (MoE) | IA Mistral | 176B Ativo 40B | Mixtral-8x22B Large Language Model (LLM) é uma mistura esparsa de especialistas pré-treinada. Possui comprimento de contato de 65.000 tokens. | Blog HuggingFace |
Comando-R+ | Coerente | 104B | C4AI Command R+ é uma versão de pesquisa de peso aberto de um modelo de parâmetros de 104 bilhões de bilhões com recursos altamente avançados, incluindo geração aumentada de recuperação (RAG) e uso de ferramentas para automatizar tarefas sofisticadas. O Command R+ é otimizado para uma variedade de casos de uso, incluindo raciocínio, resumo e resposta a perguntas. | Abraçando o rosto |
Jamba (MoE) | Laboratórios AI21 | 52B ativo 12B | Jamba é um SSM-Transformer LLM híbrido de última geração. Ele oferece ganhos de rendimento em relação aos modelos tradicionais baseados em Transformer. É um modelo de texto generativo pré-treinado de mistura de especialistas (MoE), com 12B de parâmetros ativos e um total de 52B de parâmetros para todos os especialistas. Ele suporta um comprimento de contexto de 256K e pode acomodar até 140K tokens em uma única GPU de 80GB. | Blog HuggingFace |
DBRX (MoE) | Blocos de dados | 132B Ativo 36B | DBRX é um modelo de linguagem grande (LLM) somente para decodificador baseado em transformador que foi treinado usando a previsão do próximo token. Ele usa uma arquitetura de mistura de especialistas (MoE) refinada com 132B de parâmetros totais, dos quais 36B de parâmetros estão ativos em qualquer entrada. Ele foi pré-treinado em tokens 12T de texto e dados de código. Comparado a outros modelos abertos de MoE, como Mixtral-8x7B e Grok-1, o DBRX é refinado, o que significa que usa um número maior de especialistas menores. DBRX tem 16 especialistas e escolhe 4, enquanto Mixtral-8x7B e Grok-1 têm 8 especialistas e escolhe 2. Isso fornece 65x mais combinações possíveis de especialistas, o que melhora a qualidade do modelo. | Blog HuggingFace no Github |
Grok 1.0 (MoE) | xAI | 314B | Grok 1.0 usa mistura de 8 especialistas (MoE). Grok 1.0 não é ajustado para aplicações específicas como diálogo, mas apresenta forte desempenho em comparação com outros modelos como GPT-3.5 e Llama 2. É maior que GPT-3/3.5. | Github HuggingFace |
Gema | Google | 2B 7B | Gemma é uma família de modelos abertos leves e de última geração do Google, construídos a partir da mesma pesquisa e tecnologia usada para criar os modelos Gemini. Eles são modelos de linguagem grande texto para texto, somente decodificadores, disponíveis em inglês, com pesos abertos, variantes pré-treinadas e variantes ajustadas por instrução. Os modelos Gemma são adequados para uma variedade de tarefas de geração de texto, incluindo resposta a perguntas, resumo e raciocínio. | HuggingFace Kaggle Github Blog |
Gemma recorrente | Google | 2B | RecurrentGemma é uma família de modelos de linguagem aberta construídos em uma nova arquitetura recorrente. Assim como o Gemma, os modelos RecurrentGemma são adequados para uma variedade de tarefas de geração de texto, incluindo resposta a perguntas, resumo e raciocínio. Devido à sua arquitetura inovadora, o RecurrentGemma requer menos memória que o Gemma e obtém inferência mais rápida ao gerar sequências longas. | AbraçandoFace Kaggle |
Mixtral 8x7B (MoE) | IA Mistral | 45B Ativo 12B | Mixtral-8x7B Large Language Model (LLM) é uma mistura esparsa de especialistas pré-treinada. O Mixtral-8x7B supera o Llama 2 70B na maioria dos benchmarks. | Blog HuggingFace Kaggle |
Qwen1.5-MoE (MoE) | Alibaba | 14,3B Ativo 2,7B | Qwen1.5-MoE é um modelo de linguagem somente decodificador MoE baseado em transformador, pré-treinado em uma grande quantidade de dados. Ele emprega arquitetura Mixture of Experts (MoE), onde os modelos são atualizados a partir de modelos de linguagem densa. Possui 14,3B de parâmetros no total e 2,7B de parâmetros ativados durante o tempo de execução, enquanto alcança desempenho comparável ao Qwen1.5-7B, requer apenas 25% dos recursos de treinamento. | Abraçando o rosto |
Mistral 7B v2 | IA Mistral | 7B | Mistral 7B v2 tem as seguintes alterações em comparação com Mistral 7B: - Janela de contexto de 32k (vs contexto de 8k na v0.1), Rope-theta = 1e6, Sem atenção de janela deslizante. | AbraçandoFace Github |
Mistral 7B | IA Mistral | 7B | O Large Language Model (LLM) Mistral-7B-v0.1 é um modelo de texto generativo pré-treinado com 7 bilhões de parâmetros. Mistral-7B-v0.1 supera o Llama 2 13B na maioria dos benchmarks. | Blog Github HuggingFace Kaggle |
Lhama 2 | Meta IA | 7B 13B 70B | Llama 2 é uma coleção de modelos de texto generativo pré-treinados e ajustados que variam em escala de 7 bilhões a 70 bilhões de parâmetros. É um modelo de linguagem auto-regressivo que utiliza uma arquitetura de transformador otimizada. As versões ajustadas usam ajuste fino supervisionado (SFT) e aprendizagem por reforço com feedback humano (RLHF) para se alinhar às preferências humanas de utilidade e segurança. | HuggingFace Kaggle Github Blog |
Boneca v2 | Blocos de dados | 3B 7B 12B | Dolly v2 é um modelo de linguagem causal criado por Databricks que é derivado do Pythia-12b da EleutherAI e ajustado em um corpus de instruções de registro de aproximadamente 15K. | HuggingFace Dolly3B HuggingFace Dolly7B HuggingFace Dolly12B Kaggle Github |
Comando-R | Coerente | 35B | Command-R é uma versão de pesquisa de um modelo generativo de alto desempenho com 35 bilhões de parâmetros. Command-R é um grande modelo de linguagem com pesos abertos otimizados para uma variedade de casos de uso, incluindo raciocínio, resumo e resposta a perguntas. Command-R tem capacidade de geração multilíngue avaliada em 10 idiomas e recursos RAG de alto desempenho. | AbraçandoFace Kaggle |
Qwen1.5 | Alibaba | 0,5B 1,8B 4B 7B 14B 32B 72B | Qwen1.5 é um modelo de linguagem somente decodificador baseado em transformador, pré-treinado em uma grande quantidade de dados. É baseado na arquitetura Transformer com ativação SwiGLU, atenção polarizada QKV, atenção de consulta de grupo, mistura de atenção de janela deslizante e atenção total, etc. | AbraçandoFace Github |
Vicunha v1.5 | Lismas | 7B 13B | Vicuna v1.5 é ajustado a partir do Llama 2 com ajuste fino de instrução supervisionado. Os dados de treinamento são de cerca de 125 mil conversas coletadas em ShareGPT.com. O principal uso do Vicuna é a pesquisa em grandes modelos de linguagem e chatbots. | AbraçandoRosto Vicuna7B AbraçandoRosto Vicuna13B |
Fi 2 | Microsoft | 2,7B | Phi-2 é um transformador com 2,7 bilhões de parâmetros. Ele foi treinado usando as mesmas fontes de dados do Phi-1.5, complementadas com uma nova fonte de dados que consiste em vários textos sintéticos de PNL e sites filtrados. Quando avaliado em relação a benchmarks que testam o bom senso, a compreensão da linguagem e o raciocínio lógico, o Phi-2 apresentou um desempenho quase de última geração entre modelos com menos de 13 bilhões de parâmetros. | Blog HuggingFace Kaggle |
Orca 2 | Microsoft | 7B 13B | O Orca 2 foi desenvolvido apenas para fins de pesquisa e fornece uma resposta única em tarefas como raciocínio sobre dados fornecidos pelo usuário, compreensão de leitura, resolução de problemas matemáticos e resumo de texto. O modelo foi projetado para se destacar particularmente no raciocínio. O modelo não está otimizado para chat e não foi treinado com RLHF ou DPO. | Blog HuggingFace |
Smaug | Ábaco IA | 34B 72B | Smaug é criado usando uma nova técnica de ajuste fino, DPO-Positive (DPOP), e novas versões de preferências pareadas de ARC, HellaSwag e MetaMath (bem como outros conjuntos de dados existentes). | Abraçando o rosto |
MPT | Mosaicoml | 1B 7B 30B | MPT é um transformador estilo decodificador pré-treinado do zero em tokens 1T de texto e código em inglês. Esses modelos usam uma arquitetura de transformador modificada e otimizada para treinamento e inferência eficientes. Essas mudanças arquitetônicas incluem implementações de camadas com desempenho otimizado e a eliminação de limites de comprimento de contexto, substituindo incorporações posicionais por Atenção com Vieses Lineares (ALiBi). | HuggingFace Kaggle Github |
Falcão | TLL | 7B 40B 180B | Falcon é um modelo apenas de decodificador causal de parâmetros 7B/40B/180B construído pela TII e treinado em tokens de 1.000B/1.500B/3.500B de RefinedWeb aprimorados com corpora selecionados. | Abraçando o rosto |
Yalm | Yandex | 100B | YaLM 100B é uma rede neural semelhante a GPT para geração e processamento de texto. Ele é treinado em um cluster de 800 placas gráficas A100 durante 65 dias. Ele é projetado para geração e processamento de texto. | AbraçandoFace Github |
DeciLM | DeciAI | 6B 7B | DeciLM é um modelo de geração de texto somente decodificador. Com suporte para um comprimento de sequência de token de 8K, este modelo altamente eficiente usa atenção de consulta agrupada (GQA) variável para alcançar um equilíbrio superior entre precisão e eficiência computacional. | Abraçando o rosto |
BERTO | Google | 110 milhões a 350 milhões | BERT é um modelo de transformadores pré-treinado em um grande corpus de dados em inglês de forma autossupervisionada. Isso significa que ele foi pré-treinado apenas nos textos brutos, sem nenhum ser humano os rotulando de forma alguma, com um processo automático para gerar entradas e rótulos a partir desses textos. | HuggingFace Kaggle GitHub |
Olmo | Allen AI | 1B 7B | OLMo é uma série de modelos de linguagem aberta projetados para capacitar a ciência dos modelos de linguagem. Os modelos OLMo são treinados no conjunto de dados Dolma. | AbraçandoFace Github |
Bate-papo aberto3.5 | Bate-papo aberto | 7B | Openchat2.5 é o 7B LLM com melhor desempenho. | AbraçandoFace Github |
Florescer | Grande Ciência | 176B | BLOOM é um Large Language Model (LLM) autorregressivo, treinado para continuar texto a partir de um prompt em grandes quantidades de dados de texto usando recursos computacionais em escala industrial. | Abraçando o rosto |
Hermes 2 Pro Mistral | Pesquisa Nous | 7B | Hermes 2 Pro no Mistral 7B é o novo carro-chefe 7B Hermes. Hermes 2 Pro é uma versão atualizada e retreinada do Nous Hermes 2, consistindo em uma versão atualizada e limpa do conjunto de dados OpenHermes 2.5, bem como um conjunto de dados de chamada de função e modo JSON recém-introduzido desenvolvido internamente. Esta nova versão do Hermes mantém seus excelentes recursos gerais de tarefas e conversação - mas também se destaca em chamadas de função e saídas estruturadas JSON. | Abraçando o rosto |
Hermes 2 Mixtral 7x8B (MoE) | Pesquisa Nous | Ativo 12B | Nous Hermes 2 Mixtral 8x7B DPO é o novo modelo carro-chefe da Nous Research treinado no Mixtral 8x7B MoE LLM. O modelo foi treinado em mais de 1.000.000 de entradas de dados gerados principalmente por GPT-4, bem como outros dados de alta qualidade de conjuntos de dados abertos em todo o cenário de IA, alcançando desempenho de última geração em uma variedade de tarefas. Esta é a versão SFT + DPO do Mixtral Hermes 2. | Abraçando o rosto |
Merlinita | IBM | 7B | Merlinite-7b é um modelo derivado de Mistral-7b treinado com a metodologia LAB, usando Mixtral-8x7b-Instruct como modelo de professor. | Abraçando o rosto |
Labradorita | IBM | 13B | Labradorite-13b é um modelo derivado de LLaMA-2-13b treinado com a metodologia LAB, usando Mixtral-8x7b-Instruct como modelo de professor. | Abraçando o rosto |
Xgen | Força de vendas | 7B | Xgen é um modelo de linguagem grande que possui um comprimento de contexto de 8K, 4K e é otimizado para tarefas de sequência longa. | AbraçandoFace Github |
Solar | Acima do palco | 10,7B | SOLAR-10.7B, um modelo avançado de linguagem grande (LLM) com 10,7 bilhões de parâmetros, demonstrando desempenho superior em diversas tarefas de processamento de linguagem natural (PNL). É compacto, mas extremamente poderoso, e demonstra desempenho de última geração incomparável em modelos com parâmetros abaixo de 30B. | Abraçando o rosto |
GPT-Neox | Eleuther IA | 20B | GPT-NeoX-20B é um modelo de linguagem autoregressiva de 20 bilhões de parâmetros treinado na Pile usando a biblioteca GPT-NeoX. Sua arquitetura se assemelha intencionalmente à do GPT-3 e é quase idêntica à do GPT-J-6B. | AbraçandoFace GitHub |
Flan-T5 | Google | 80M a 11B | FLAN-T5 é uma versão modificada do T5 e possui o mesmo número de parâmetros, esses modelos foram ajustados em mais de 1000 tarefas adicionais cobrindo também mais idiomas. Vários tamanhos: flan-t5-pequeno, flan-t5-base, flan-t5-grande, flan-t5-xxl | AbraçandoFace Kaggle |
OPTAR | Meta IA | 125M a 175B | OPT são transformadores pré-treinados somente para decodificadores que variam de parâmetros de 125M a 175B. Foi predominantemente pré-treinado com texto em inglês, mas uma pequena quantidade de dados em outros idiomas ainda está presente no corpus de treinamento via CommonCrawl. | Abraçando o rosto |
LM 2 estável | IA de estabilidade | 1,6B 12B | Stable LM 2 são modelos de linguagem somente decodificadores pré-treinados em 2 trilhões de tokens de diversos conjuntos de dados multilíngues e de código para duas épocas. | Abraçando o rosto |
LM Zephyr estável | IA de estabilidade | 3B | O modelo StableLM Zephyr 3B é um modelo de linguagem auto-regressivo baseado na arquitetura do decodificador de transformador. StableLM Zephyr 3B é um parâmetro de 3 bilhões que foi treinado em uma combinação de conjuntos de dados disponíveis publicamente e conjuntos de dados sintéticos usando Direct Preference Optimization (DPO). | Abraçando o rosto |
Aya | Coerente | 13B | O modelo Aya é um modelo de linguagem generativo autoregressivo massivamente multilíngue de estilo transformador que segue instruções em 101 idiomas. Possui a mesma arquitetura do mt5-xxl. | Blog HuggingFace Kaggle |
Nemotron 3 | Nvidia | 8B | Nemotron-3 são grandes modelos de base de linguagem para empresas construírem LLMs personalizados. Este modelo básico tem 8 bilhões de parâmetros e suporta um comprimento de contexto de 4.096 tokens. Nemotron-3 é uma família de modelos de texto generativos prontos para empresas, compatíveis com NVIDIA NeMo Framework. | Abraçando o rosto |
Bate-papo Neural v3 | Informações | 7B | Neural Chat é um LLM de parâmetro 7B ajustado no processador Intel Gaudi 2 do mistralai/Mistral-7B-v0.1 no conjunto de dados de código aberto Open-Orca/SlimOrca. O modelo foi alinhado usando o método Direct Performance Optimization (DPO). | Abraçando o rosto |
Sim | 01 IA | 6B 9B 34B | Os modelos da série Yi são a próxima geração de modelos de linguagem grande de código aberto. Eles são direcionados como um modelo de linguagem bilíngue e treinados em corpus multilíngue 3T, mostrando-se promissores na compreensão da linguagem, raciocínio de bom senso, compreensão de leitura e muito mais. | AbraçandoFace Github |
Estorninho LM | Nexusfluxo | 7B | Starling LM, um modelo de linguagem aberta de grande porte (LLM) treinado por Reinforcement Learning from AI Feedback (RLAIF). Starling LM é treinado em Openchat-3.5-0106 com nosso novo modelo de recompensa Starling-RM-34B e método de otimização de política Modelos de linguagem de ajuste fino de preferências humanas (PPO). | Abraçando o rosto |
NexusRaven v2 | Nexusfluxo | 13B | NexusRaven é um LLM de chamada de função de código aberto e comercialmente viável que supera o que há de mais moderno em recursos de chamada de função. NexusRaven-V2 é capaz de gerar chamadas de função profundamente aninhadas, chamadas de função paralelas e chamadas únicas simples. Também pode justificar as chamadas de função geradas. | Abraçando o rosto |
ProfundoSeek LLM | IA de busca profunda | 7B 67B | DeepSeek LLM é um modelo de linguagem avançado. Ele foi treinado do zero em um vasto conjunto de dados de 2 trilhões de tokens em inglês e chinês. | AbraçandoFace Github |
Deepseek VL (multimodal) | IA de busca profunda | 1,3B 7B | DeepSeek-VL, um modelo de linguagem de visão (VL) de código aberto projetado para aplicações de visão do mundo real e compreensão de linguagem. DeepSeek-VL possui capacidades gerais de compreensão multimodal, capazes de processar diagramas lógicos, páginas da web, reconhecimento de fórmulas, literatura científica, imagens naturais e inteligência incorporada em cenários complexos. É um codificador de visão híbrido que suporta entrada de imagem 1024 x 1024 e é construído com base no DeepSeek-7b-base, que é treinado em um corpus aproximado de tokens de texto 2T. | AbraçandoFace Github |
Llava 1.6 (Multimodal) | Llava HF | 7B 13B 34B | LLaVa combina um modelo de linguagem grande pré-treinado com um codificador de visão pré-treinado para casos de uso de chatbot multimodal. Modelos disponíveis: - Llava-v1.6-34b-hf, Llava-v1.6-Mistral-7b-hf, Llava-v1.6-Vicuna-7b-hf, Llava-v1.6-vicuna-13b-hf | Abraçando o rosto Abraçando o rosto |
Yi VL (multimodal) | 01 IA | 6B 34B | O modelo Yi-VL é a versão multimodal de código aberto da série Yi Large Language Model (LLM), permitindo compreensão de conteúdo, reconhecimento e conversas múltiplas sobre imagens. | AbraçandoFace YiVL6B AbraçandoFace YiVL34B |