No campo da IA, existem muitos gigantes e a concorrência é acirrada. No entanto, a Nous Research, uma empresa start-up composta por apenas 10 pessoas, desafiou com sucesso a autoridade dos gigantes da tecnologia com a sua forte força técnica e conceito de código aberto. Seu modelo Hermes3 recém-lançado é ajustado com base no Llama 3.1, com tamanho de parâmetro de 405B e desempenho incrível. Ele foi baixado mais de 33 milhões de vezes, tornando-o um produto fenomenal na indústria de IA. Este artigo irá aprofundar o excelente desempenho do modelo Hermes3, métodos de treinamento eficientes e o espírito inovador da Nous Research.
Uma pequena equipe de apenas 10 pessoas ousou desafiar o status do gigante da tecnologia Meta. Esta é simplesmente uma versão real de Davi derrotando Golias!
Esta startup chamada Nous Research não é uma pessoa desconhecida. O Hermes3 que acabaram de lançar foi ajustado com base no modelo 405B do Llama3.1. Embora a equipe tenha um número pequeno de pessoas, sua força não pode ser subestimada. Esta equipe de dez membros ajustou com sucesso vários modelos, como Mistral, Yi, Llama, etc., e foi baixada mais de 33 milhões de vezes. É simplesmente uma máquina de grande sucesso na indústria de IA!
O surgimento do Hermes3 é como um tiro no braço no mundo da IA. Mesmo após a quantização do FP8, seu desempenho ainda é incrivelmente poderoso. Essa otimização não apenas reduz significativamente os requisitos de VRAM e disco do modelo, mas também permite que o Hermes3 seja executado em um único nó, o que é uma ótima notícia para os desenvolvedores!
Em termos de capacidade de conversação, o Hermes3 é simplesmente versátil. Quer se trate de memória de longo prazo, múltiplas rodadas de diálogo, dramatização ou monólogo interno, ele pode lidar com isso com facilidade. Graças à janela de contexto de 128K do Llama3.1, Hermes3 é um diplomata experiente em manter conversas coerentes.
Mas as capacidades do Hermes3 não param por aí. Ele demonstra um conjunto de capacidades avançadas que vão além da modelagem de linguagem tradicional para compreender e avaliar a qualidade do texto gerado de uma forma sofisticada e diferenciada. Isso significa que ele pode não ser apenas um orador eloqüente, mas também um crítico estrito de textos!
O que é ainda mais surpreendente é que o Hermes3 também integra vários recursos do agente, incluindo saída estruturada, saída de etapas intermediárias e geração de monólogos internos para alcançar uma tomada de decisão transparente. Isto é como equipar a IA com um cérebro transparente, permitindo-nos espreitar o seu processo de pensamento.
O processo de treinamento do Hermes3 pode ser chamado de treinamento diabólico no mundo da IA. Passou por duas etapas: ajuste fino supervisionado (SFT) e otimização de preferência direta (DPO). A equipe passou cinco meses inteiros analisando e construindo o conjunto de dados SFT, e sua dedicação e paciência são simplesmente inspiradoras.
Nous Research, um grupo privado de pesquisa aplicada fundado em 2023 e sediado em Nova York, é simplesmente um invasor bárbaro no mundo da IA. Eles acreditam firmemente no poder do código aberto e prometem desafiar as limitações de inovação das tecnologias fechadas. O slogan da empresa é fervoroso: Desafiamos a suposição de que as tecnologias fechadas sempre ocuparão o auge da inovação e, em vez disso, fornecerão um poderoso código-fonte aberto.
Em pouco mais de um ano, a Nous Research lançou 5 conjuntos de dados e 89 modelos. Este alto rendimento parece declarar ao mundo: o tamanho não importa, a força é rei!
Endereço do artigo: https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf
Introdução oficial: https://nousresearch.com/freedom-at-the-frontier-hermes-3/
O sucesso da Nous Research e da Hermes3 não só prova o poder do código aberto, mas também traz nova vitalidade e possibilidades ao campo da IA. Pequenas equipes também podem criar milagres, o que é sem dúvida um grande incentivo para todos os profissionais de IA. No futuro, vamos esperar e ver que resultados mais surpreendentes a Nous Research trará.