O Llama 3.1, esse gigante modelo de linguagem de código aberto com 405 bilhões de parâmetros, causou um grande choque no campo da IA devido a vazamentos sem lançamento oficial. Seu desempenho é tão poderoso que até supera o GPT-4o em alguns testes de benchmark, estabelecendo um novo benchmark para modelos de código aberto. A discussão acalorada no Reddit prova ainda mais seu impacto na comunidade de IA. Este artigo irá aprofundar o desempenho, destaques e medidas de segurança do Llama 3.1 e revelar este modelo misterioso.
Llama3.1 vazou! Você ouviu direito, este modelo de código aberto com 405 bilhões de parâmetros causou alvoroço no Reddit. Este é provavelmente o modelo de código aberto mais próximo do GPT-4o até o momento, e até o supera em alguns aspectos.
Llama3.1 é um grande modelo de linguagem desenvolvido pela Meta (anteriormente Facebook). Embora ainda não haja um lançamento oficial, a versão vazada já causou alvoroço na comunidade. Este modelo inclui não apenas o modelo básico, mas também resultados de benchmark de 8B, 70B e o parâmetro máximo de 405B.
Comparação de desempenho: Llama3.1 vs GPT-4o
A julgar pelos resultados de comparação vazados, até mesmo a versão 70B do Llama3.1 superou o GPT-4o em vários testes de benchmark. Esta é a primeira vez que um modelo de código aberto atinge o nível SOTA (estado da arte, a tecnologia mais avançada) em vários benchmarks. As pessoas não podem deixar de suspirar: o poder do código aberto é realmente poderoso!
Destaques do modelo: suporte multilíngue, dados de treinamento mais ricos
O modelo Llama3.1 usa mais de 15T tokens de fontes públicas para treinamento, e o prazo de dados de pré-treinamento é dezembro de 2023. Suporta não apenas inglês, mas também francês, alemão, hindi, italiano, português, espanhol e tailandês. Isso o torna excelente em casos de uso de conversação multilíngue.
A equipe de pesquisa do Llama3.1 atribui grande importância à segurança do modelo. Eles usaram uma abordagem multifacetada de coleta de dados que combinava dados gerados por humanos e dados sintéticos para mitigar possíveis riscos de segurança. Além disso, o modelo também introduz avisos de limite e avisos adversários para aprimorar o controle de qualidade dos dados.
Fonte do cartão modelo: https://pastebin.com/9jGkYbXY#google_vignette
O vazamento do Llama 3.1 terá, sem dúvida, um impacto profundo no campo da IA. Não só demonstra o enorme potencial dos modelos de código aberto, mas também desencadeia uma reflexão mais aprofundada sobre a segurança do modelo e questões éticas. No futuro, continuaremos a prestar atenção ao Llama 3.1 e ao seu desenvolvimento subsequente, e esperamos que ele traga mais surpresas para o avanço da tecnologia de IA.