Cientistas usam tecnologia inovadora para treinar com sucesso o modelo de trilhões de parâmetros no nível ChatGPT

Autor：Eve Cole Data da Última Atualização：2025-01-23 16:48:02

O Laboratório Nacional de Oak Ridge, nos Estados Unidos, fez um grande avanço, usando o Frontier, o supercomputador mais poderoso do mundo, para treinar com sucesso um modelo de linguagem equivalente ao ChatGPT usando apenas 8% do seu poder computacional. O modelo tem trilhões de parâmetros. Por meio de treinamento distribuído inovador e tecnologia paralela, a equipe de pesquisa alcançou 100% de eficiência de expansão fraca, fornecendo experiência valiosa e referência técnica para o treinamento de modelos linguísticos em larga escala no futuro. Esta pesquisa não apenas demonstra o poder da tecnologia de supercomputação, mas também destaca a importância da memória e de outros desafios ao lidar com o treinamento de modelos de linguagem em larga escala.

Os cientistas usaram o supercomputador mais poderoso do mundo para treinar com sucesso um modelo de nível ChatGPT, usando apenas 8% do poder computacional. A descoberta veio do Laboratório Nacional de Oak Ridge, onde a equipe de pesquisa usou tecnologia inovadora para treinar um modelo de linguagem de trilhões de parâmetros no supercomputador Frontier. Através de treinamento distribuído e tecnologia paralela, é alcançada uma eficiência de expansão 100% fraca. No entanto, o treinamento de grandes modelos linguísticos ainda apresenta desafios e exige a abordagem de problemas de memória. A pesquisa fornece experiência para o treinamento de grandes modelos de linguagem no futuro e destaca o papel fundamental do treinamento distribuído e da computação paralela.

O resultado desta pesquisa traz novas possibilidades para o desenvolvimento do campo da inteligência artificial e também indica que a tecnologia de treinamento de modelos de linguagem em larga escala se desenvolverá em uma direção mais eficiente e com economia de energia no futuro. O uso eficiente de recursos computacionais é uma direção importante para o desenvolvimento futuro de grandes modelos de linguagem.