MiniMax Yan Junjie: Rápido é bom para modelos grandes, mas às vezes lento é apenas para ser mais rápido.

Autor：Eve Cole Data da Última Atualização：2024-11-22 18:24:02

Modelos grandes são um campo onde a velocidade é a chave, mas às vezes a lentidão pode ser outro tipo de velocidade.

Em 31 de agosto, a empresa doméstica de unicórnios de IA MiniMax Shanghai Xiyu Technology Co., Ltd. (doravante denominada "MiniMax") lançou discretamente o modelo de vídeo abab-video-1 na primeira conferência de desenvolvedores "MiniMaxLink Partner Day". a palavra de alerta para Ele pode gerar vídeos de até 6 segundos de duração, com foco em alta resolução e alta taxa de quadros.

Em outras palavras, o modelo de vídeo mencionado pelo MiniMax é semelhante ao modelo de vídeo Vincent do sora da OpenAI. Como fundador e CEO da MiniMax, Yan Junjie acredita que "rápido" é o principal objetivo de pesquisa e desenvolvimento de tecnologia do grande modelo subjacente da empresa. No entanto, o modelo de vídeo está vários meses atrás de Sora.

"Por que nosso lançamento está atrasado um ou dois meses? O cerne é que estamos resolvendo um problema técnico mais difícil, ou seja, como treinar coisas nativamente com poder de computação relativamente alto, disse Yan Junjie a um repórter do China Business News durante isso." treinamento Ao desenvolver recursos de geração de vídeo, você precisa primeiro converter vídeos em tokens, e esses tokens serão muito longos e a complexidade será maior "Na verdade, o que fizemos principalmente no primeiro semestre do ano foi reduzir o. complexidade. Aumente a taxa de compactação, para que haja um ou dois meses de atraso.”

A MiniMax disse que, com base na avaliação interna e nas pontuações de corrida, o modelo de vídeo da empresa tem desempenho melhor que o da Runway. Atualmente, Keling lançou um modelo comercial de plano de assinatura. Então, qual será o modelo de negócios do modelo de vídeo MiniMax? A esse respeito, Yan Junjie disse: "Nossa estratégia é esperar mais uma ou duas semanas. Depois que coisas novas surgirem e estivermos em um estado mais satisfatório, podemos considerar (tomar) algumas (medidas) de comercialização."

Ele também mencionou que, devido ao rápido progresso dos modelos, embora os vídeos gerados por IA não possam substituir os mecanismos de renderização tradicionais, eles “pelo menos oferecem a possibilidade” de criar jogos 3A como “Black Myth: Wukong”.

Considere a comercialização apenas quando estiver mais satisfeito

Embora a trajetória de comercialização do modelo de vídeo não tenha sido mencionada, Yan Junjie disse: “A comercialização de toda a empresa está basicamente dividida em duas formas. Uma forma é a nossa plataforma aberta, que hoje conta com mais de 2.000 clientes, incluindo muitos conhecidos As empresas de Internet, incluindo as empresas tradicionais, já têm a capacidade de os usuários usarem som e visão. Nem todas as empresas podem fazer isso sozinhas, como a Kuaishou. Somos um bom parceiro, e esta é a parte 2B.

"A segunda é que nossos próprios produtos também possuem mecanismos de publicidade, e a publicidade pode ser monetizada comercialmente." Yan Junjie acredita que, no estágio atual, "o mais importante não é a comercialização, mas sim tornar a tecnologia amplamente disponível". disponibilidade."

Vídeos gerados por IA (modelos de vídeo) com tecnologia relativamente complexa tornaram-se uma operação comum para grandes fabricantes de modelos demonstrarem sua força ou "flexionarem seus músculos" este ano, e a OpenAI deu início a isso. Em fevereiro deste ano, a OpenAI lançou o Sora, um grande modelo de vídeo, mas ainda não foi lançado para testes públicos. Em abril, a Shengshu Technology lançou o grande modelo de vídeo Vidu; em junho, Kuaishou lançou o grande modelo de vídeo Keling, em julho, o modelo de vídeo gerado por Zhipu AI Qingying foi lançado oficialmente...

Por que o MiniMax deseja criar um modelo de vídeo? Yan Junjie disse que a essência é que a maior parte do conteúdo que os humanos consomem todos os dias são imagens, textos e vídeos, e o texto não representa uma proporção elevada “Para ter uma cobertura de usuário muito alta e maior profundidade de uso, como. um grande fabricante de modelos, a única maneira é ser capaz de produzir conteúdo multimodal em vez de apenas produzir conteúdo puramente baseado em texto. Este é um julgamento muito importante."

Ele mencionou ainda: "É que primeiro fizemos texto, depois fizemos sons e fizemos imagens há muito tempo. Agora que a tecnologia se tornou mais forte, (pode) também fazer vídeos. Esse caminho é consistente, deve ser multi -modal. "No passado, o MiniMax fazia grandes modelos de linguagem, depois modelos de som e depois modelos de imagem", mas agora a tecnologia se tornou mais forte e também deve fazer vídeos. Essa rota deve ser consistente. modalidade".

De acordo com o engenheiro de algoritmo de IA Zhang Yuxuan, embora MiniMax não tenha anunciado os parâmetros específicos e pontos técnicos do modelo de vídeo, pode-se ver no vídeo de geração do modelo exibido que o algoritmo da empresa ainda é muito forte, e Keling de Kuaishou é relativamente Engenharia é melhorar.

Yan Junjie disse aos repórteres: "Seja vídeo, texto ou som, a ideia central de pesquisa e desenvolvimento da equipe MiniMax não é melhorar o algoritmo em 5% ou 10%. O que é mais importante é se pode ser melhorou várias vezes. Se pode ser melhorado várias vezes, então deve ser feito, não vale a pena fazer se só aumentar 5%.”

Entende-se que o modelo de vídeo do MiniMax é atualmente apenas a primeira versão e será fornecido aos usuários gratuitamente por um período de tempo. "O trabalho de acompanhamento se concentrará nos dados e no algoritmo em si, incluindo detalhes que são mais convenientes de usar. Por exemplo, atualmente apenas vídeos baseados em texto são fornecidos. No futuro, vídeos baseados em imagens, vídeos gerados por texto + imagem , bem como a editabilidade e a controlabilidade serão lançadas uma após a outra", disse Yan Junjie.

"Black Myth: Wukong" ainda é popular e a IA criou uma nova jogabilidade no jogo. Recentemente, o Google apontou em um artigo que criou o primeiro mecanismo de jogo em tempo real totalmente baseado em IA - GameNGen, que pode gerar os gráficos do clássico jogo de tiro "Doom" em tempo real a 20 quadros por segundo. os gráficos do jogo são gerados em tempo real com base nas operações do jogador e na interação com ambientes complexos, e cada quadro é previsto pelo modelo de difusão.

Então, será um futuro distante para a IA gerar obras-primas de jogos 3A em tempo real? Yan Junjie disse que "Black Myth: Wukong" ainda usa o método tradicional de modelagem e renderização. Este método progrediu muito lentamente. Mas está. agora disponíveis e em rápido desenvolvimento.

“(A geração de vídeo) é na verdade apenas o começo, porque este é apenas o primeiro ano, e o progresso com certeza será muito rápido. Não sei se ele pode substituir o mecanismo de renderização tradicional, mas pelo menos pode fornecer uma possibilidade Como o progresso é rápido, no longo prazo, quanto mais rápido for o progresso, melhor”, disse Yan Junjie.

Crescimento significativo no uso e maior competitividade do modelo

Rápido é uma palavra-chave mencionada muitas vezes por Yan Junjie. "Quer estejamos fazendo MoE, atenção linear ou outras explorações, a essência é tornar o mesmo modelo de efeito mais rápido." Yan Junjie disse que rápido é bom, o que significa que o mesmo poder de computação pode se tornar melhor. I&D subjacente.

Ao mesmo tempo, ele também destacou que como reduzir continuamente a taxa de erro do modelo, entradas e saídas infinitamente longas e multimodalidade são três desafios que a indústria precisa continuar a resolver.

De acordo com a empresa, o MiniMax passou por duas mudanças tecnológicas subjacentes importantes no passado, incluindo MoE (Mixtura de Especialistas, modelo de especialista misto) e Atenção Linear (atenção linear). Em abril deste ano, a empresa desenvolveu um modelo de nova geração baseado em MoE+ Linear Attention, que é comparável ao GPT-4o.

Informações públicas mostram que a MiniMax é uma empresa start-up de inteligência artificial fundada em dezembro de 2021. Foi fundada por Yan Junjie, ex-vice-presidente da SenseTime e ex-vice-diretor do instituto de pesquisa. Seus membros são principalmente de IA bem conhecida. empresas como SenseTime.

Tianyancha mostra que em março deste ano, a MiniMax concluiu um financiamento Série B de US$ 600 milhões, tendo o Alibaba como investidor, e sua avaliação atingiu US$ 2,5 bilhões. Anteriormente, em junho de 2023, a MiniMax concluiu um financiamento Série A de mais de US$ 250 milhões, e o investidor foi a Tencent Investment.

Um ano após sua fundação, a MiniMax desenvolveu de forma independente a arquitetura do modelo básico de três modos: texto para visual, texto para fala e texto para texto, e construiu uma plataforma de raciocínio computacional baseada no modelo básico.

Em termos de produtos, o MiniMax cuida dos mercados do lado B e do lado C. Os aplicativos do lado C incluem o aplicativo de bate-papo de IA Glow, o software social de IA Hoshino, o assistente de conversação por voz de IA Conch WeChat, etc., enquanto. o lado B fornece soluções personalizadas para empresas A interface API permite que as empresas acessem vários recursos do modelo ABAB. Empresas como Huoshan Engine, Kingsoft Office, DingTalk, Zhaopin Recruitment e China Literature estão usando seus serviços. Dados oficiais mostram que os modelos MiniMax interagem atualmente com utilizadores globais mais de 3 mil milhões de vezes por dia, processando mais de 3 biliões de tokens de texto, 20 milhões de imagens e 70.000 horas de voz. Há um ano, o tempo de interação do MiniMax era de apenas 3% do ChatGPT, e agora essa proporção aumentou para 53%.

Desde maio, eclodiu uma guerra de preços no campo dos grandes modelos, e as APIs caíram para “preços do repolho”. Ao falar sobre a guerra de preços dos grandes modelos, Yan Junjie destacou que com a guerra de preços, muitas empresas tradicionais começaram a se dispor a usar modelos grandes, “objetivamente falando, aumentou muito o número de chamadas de modelos”.

Ao mesmo tempo, isto também promove a melhoria do desempenho do modelo lateralmente. Os grandes modelos da China também se tornaram competitivos no Sudeste Asiático e em outros países estrangeiros. "É uma competição tão acirrada entre os modelos nacionais que devemos avançar. Pelo menos nos países que não falam inglês, podemos alcançar um nível comparável ao GPT." Yan Junjie disse que a competição é inevitável. O lado optimista mostra duas mudanças positivas: em primeiro lugar, a utilização de grandes modelos nacionais está a crescer significativamente e, em segundo lugar, os modelos chineses estão, de facto, a tornar-se cada vez mais competitivos no exterior.

Yan Junjie disse que a maioria das empresas pensava que os modelos grandes eram caros, mas depois muitas pessoas pensaram que os modelos grandes eram baratos e podiam ser usados com confiança. No final, fiquei surpreso ao descobrir que muitas empresas tradicionais estão muito dispostas a usar modelos grandes. Elas acham que o custo é baixo de qualquer maneira e não importa se cometem erros. Objetivamente falando, isso aumentou muito o número de chamadas de modelos, promovendo assim o desempenho do modelo. Pelo menos por enquanto, em idiomas diferentes do inglês, o nível dos grandes modelos nacionais é comparável ao GPT. Portanto, de uma perspectiva optimista, a utilização de grandes modelos nacionais está de facto a crescer significativamente, e os grandes modelos de IA da China estão de facto a tornar-se cada vez mais competitivos no estrangeiro.

Ao falar sobre a possibilidade de competição frontal com grandes empresas de Internet, Yan Junjie disse que o que ele pode fazer é ampliar infinitamente as coisas que têm potencial para se tornarem mais fortes. ter melhor cooperação com os usuários Criar.