A equipe de modelo Doubao Big Model da Bydance fez um grande avanço recentemente e desenvolveu com sucesso um novo modelo de arquitetura de modelo esparso. Essa arquitetura resolve de maneira inovadora o problema do acesso à memória de alto valor na inferência do modelo MOE, melhorando significativamente a velocidade e a eficiência da inferência e reduzindo o custo de inferência. Ao garantir o efeito do modelo, o Ultramem aumentou a velocidade de inferência em 2-6 vezes em comparação com o MOE, e o custo de inferência pode ser reduzido em até 83%, fornecendo uma nova solução para inferência eficiente de grandes modelos e estabelecer as bases para a construção Modelos em larga escala.
A Bydance Doubao Big Model Team anunciou hoje que desenvolveu com sucesso um novo modelo de arquitetura de modelo escasso. do que isso em MOE. Esse progresso inovador abre novos caminhos para a inferência eficiente de grandes modelos.
Na premissa de garantir o efeito do modelo, a arquitetura Ultramem resolveu com sucesso o gargalo de acesso à memória na inferência de arquitetura MOE. Os resultados experimentais mostram que, nos mesmos parâmetros e condições de ativação, o ultramem não apenas tem o efeito do modelo melhor que o MOE, mas também aumenta a velocidade de inferência em 2-6 vezes. Além disso, em escala comum de tamanho em lote, o custo de acesso à memória do ultramem é quase equivalente ao do modelo denso com o mesmo volume computacional, reduzindo significativamente o custo de inferência.
A equipe de pesquisa treinou o modelo Ultramem com uma escala de 20 milhões de valor. Esse resultado verifica as excelentes características de escala da arquitetura Ultramem e estabelece a base técnica para a construção de bilhões de valor ou modelos especializados.
À medida que a escala de grandes modelos continua a se expandir, o custo e a velocidade de inferência se tornaram os principais fatores que restringem sua aplicação. Embora a arquitetura MOE tenha implementado a dissociação computacional dos parâmetros, sua alta demanda de busca de memória durante a inferência resulta em um aumento na latência. A proposta de arquitetura ultramem resolve efetivamente esse problema e fornece novas opções técnicas para a aplicação em larga escala de grandes modelos.
O desenvolvimento bem -sucedido da arquitetura Ultramem marca um progresso significativo na grande tecnologia de inferência de modelos, fornece um forte suporte técnico para a aplicação generalizada de grandes modelos no futuro e também indica que a grande era modelo está prestes a chegar. Seu excelente desempenho e custo-efetividade impulsionarão a aplicação e o desenvolvimento de grandes modelos em mais campos.