A Apple recentemente fez um grande avanço na velocidade de geração de modelos de linguagem grande (LLM). Ela cooperou com a NVIDIA para usar a tecnologia de código aberto Recurrent Drafter (ReDrafter) para quase triplicar a velocidade de geração. O ReDrafter usa um método de decodificação especulativo para melhorar significativamente a eficiência do treinamento do modelo e é integrado à estrutura de aceleração de inferência TensorRT-LLM da NVIDIA para reduzir ainda mais os custos de uso e a latência. Esta cooperação não só melhora a eficiência do desenvolvimento, mas também proporciona aos usuários uma experiência de serviço mais rápida, marcando a determinação e a força da Apple em continuar a inovar no campo da IA. Este artigo irá detalhar os detalhes da cooperação entre Apple e NVIDIA e as vantagens da tecnologia ReDrafter.
Recentemente, a pesquisa mais recente da Apple na área de aprendizado de máquina mostra que, por meio da cooperação com a NVIDIA, eles aumentaram com sucesso a velocidade de geração de modelos de linguagem grande (LLM) em quase três vezes. A chave para esse progresso está na tecnologia de código aberto “Recurrent Drafter” (ReDrafter) da Apple, que usa um método de decodificação especulativo que pode melhorar significativamente a eficiência do treinamento do modelo.
No passado, o processo de criação de grandes modelos de linguagem geralmente consumia muito tempo e muitos recursos, e as empresas muitas vezes precisavam adquirir um grande número de dispositivos de hardware, aumentando assim os custos operacionais. No início de 2024, a Apple lançou o ReDrafter, uma tecnologia que combina redes neurais recursivas e métodos dinâmicos de atenção de árvore para gerar e verificar tags rapidamente, aumentando a velocidade de geração de tags em 3,5 vezes em comparação com os métodos tradicionais de regressão automática.
Esta semana, a Apple anunciou ainda que sua cooperação com a NVIDIA integrará o ReDrafter à estrutura de aceleração de inferência TensorRT-LLM da NVIDIA. Essa mudança permitirá que desenvolvedores de aprendizado de máquina que usam GPUs NVIDIA aproveitem os recursos de aceleração do ReDrafter em ambientes de produção. Vale ressaltar que embora os servidores multi-GPU de alto desempenho sejam geralmente caros, esta cooperação pode reduzir a latência e ao mesmo tempo reduzir a quantidade de hardware necessária, resultando em uma solução mais econômica.
Em testes de benchmark com NVIDIA, a eficiência de geração usando ReDrafter foi significativamente melhorada, com um aumento de 2,7x na geração de tokens por segundo no modo de codificação guloso. Isso significa que os desenvolvedores podem obter mais resultados em menos tempo e fornecer aos usuários uma experiência de serviço mais rápida.
Depois de confirmar sua cooperação com a NVIDIA, a Apple também afirmou que está considerando usar o chip Trainium2 da Amazon para melhorar a eficiência do treinamento do modelo. Espera-se que a eficiência do pré-treinamento usando o Trainium2 seja melhorada em 50% em comparação com o hardware existente.
Blog oficial: https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/
Destaques:
A Apple faz parceria com a NVIDIA para quase triplicar a velocidade de geração de modelos de linguagem grande.
A tecnologia de código aberto ReDrafter combina-se com redes neurais recorrentes para melhorar significativamente a eficiência do treinamento de modelos.
Essa colaboração ajuda a reduzir custos e fornecer soluções mais eficientes para desenvolvedores de aprendizado de máquina.
Em suma, a cooperação entre a Apple e a NVIDIA e a aplicação da tecnologia ReDrafter trouxeram melhorias significativas de eficiência e reduções de custos para o desenvolvimento e aplicação de grandes modelos de linguagem. Isto não só promove o progresso tecnológico no domínio da inteligência artificial, mas também traz soluções mais convenientes e económicas para desenvolvedores e utilizadores, indicando o desenvolvimento vigoroso de aplicações de IA no futuro.