A Nous Research está conduzindo um experimento inovador: usar máquinas distribuídas globalmente para pré-treinar um modelo de linguagem grande (LLM) de 1,5 bilhão de parâmetros. Este experimento subverte o modelo tradicional de treinamento centralizado, evita data centers caros e que consomem energia e transmite o processo de treinamento em tempo real por meio de seu site distro.nousresearch.com, demonstrando o desempenho do modelo e mapas de localização de hardware. Esta medida não só reduz os custos de formação, mas, mais importante ainda, espera-se que reduza a barreira de entrada para grandes modelos linguísticos, permitindo que mais pequenas equipas e indivíduos participem na investigação e desenvolvimento de IA generativa.
No campo de rápido desenvolvimento da IA generativa, a equipe da Nous Research está conduzindo um experimento único: eles estão usando máquinas distribuídas ao redor do mundo para pré-treinar um modelo de linguagem grande (LLM) de 1,5 bilhão de parâmetros, um processo que evita as exigências tradicionais centralizadas. desenvolvimento em data centers ou superclusters caros e que consomem muita energia.
A Nous Research também transmite o processo de pré-treinamento ao vivo em seu site dedicado distro.nousresearch.com, mostrando o desempenho do modelo em vários benchmarks de avaliação em tempo real e fornecendo um mapa dos locais de hardware participantes do treinamento, cobrindo vários locais no Estados Unidos e Europa. No momento da publicação deste artigo, o tempo restante para o pré-treinamento é de aproximadamente 57 horas (ou seja, 2,3 dias) e mais de 75% do progresso do treinamento foi concluído.
O pré-treinamento é a primeira e mais básica etapa do treinamento LLM, que envolve o treinamento de uma grande quantidade de dados de texto para aprender as propriedades estatísticas e a estrutura da linguagem. Nesta fase, o modelo captura os padrões de linguagem, sintaxe e relações contextuais entre palavras, processando extensos conjuntos de dados de texto. Este processo dá ao modelo uma ampla compreensão da linguagem, a capacidade de gerar texto coerente e realizar uma variedade de tarefas relacionadas à linguagem. Após o pré-treinamento, o modelo também precisa ser ajustado para tarefas ou domínios específicos.
Se este plano for bem-sucedido, a Nous Research provará que o LLM de ponta ainda pode ser treinado sem superclusters caros ou transmissão de baixa latência, marcando uma nova era de treinamento distribuído de IA. Esta abordagem de formação de código aberto poderia mudar a dinâmica de poder da IA generativa, tornando equipas mais pequenas e intervenientes não empresariais mais competitivos neste espaço.
A nova tecnologia utilizada pela Nous é chamada Nous DisTrO (Distributed Training Over-the-Internet), que foi projetada para reduzir os requisitos de largura de banda de comunicação entre GPUs durante o processo de pré-treinamento. De acordo com o último lançamento da Nous Research, o DisTrO pode reduzir os requisitos de comunicação em até 10.000 vezes, permitindo que taxas de convergência competitivas e curvas de perda sejam mantidas em conexões de Internet mais lentas e acessíveis.
Além disso, o principal avanço do DisTrO é compactar efetivamente a quantidade de dados trocados entre GPUs sem afetar o desempenho do modelo. Esta tecnologia baseia-se no algoritmo Decoupled Momentum Optimization (DeMo) anterior, que também visa reduzir significativamente os requisitos de comunicação entre GPUs, mantendo o desempenho do treinamento.
Em termos de hardware, o processo de pré-treinamento da Nous Research é apoiado por muitos parceiros conhecidos, como Oracle, Lambda Labs, Northern Data Group, Crusoe Cloud e Andromeda Cluster, que em conjunto fornecem o hardware heterogêneo necessário para testar completamente o DisTrO em distribuição real. capacidade dos sistemas no ambiente.
Entrada do blog: https://nousresearch.com/
Este experimento da Nous Research não apenas fez um avanço tecnológico, mas, mais importante, forneceu uma nova ideia e possibilidade para pesquisadores de IA em todo o mundo, anunciando uma mudança no modelo de treinamento de IA. No futuro, talvez surjam mais projetos de formação distribuída semelhantes, reduzindo ainda mais o limiar de entrada para a tecnologia de IA e promovendo o desenvolvimento vigoroso do campo da IA.