lançou oficialmente seu primeiro modelo grande "TuSimple Video" - "Ruyi" em 17 de dezembro de 2024, e abriu o código-fonte da versão Ruyi-Mini-7B. Este modelo foi especialmente projetado para placas gráficas de consumo, proporcionando um processo conveniente de implantação e uso. Ele tem um bom desempenho em termos de consistência entre quadros e suavidade de movimento e fornece uma ferramenta criativa poderosa para criadores de animação e jogos. Ele suporta geração de vídeo com múltiplas resoluções e durações e possui uma variedade de funções de controle, que podem reduzir efetivamente o ciclo e o custo de criação de conteúdo. Isto marca um passo importante para a TuSimple no campo da aplicação da tecnologia de IA e também traz uma nova experiência criativa para os entusiastas do ACG.
lançou oficialmente seu primeiro modelo grande "TuSimple Video" - "Ruyi" em 17 de dezembro de 2024, e tornou a versão Ruyi-Mini-7B de código aberto para os usuários baixarem e usarem na plataforma huggingface . A TuSimple foi fundada em 2015 e está sediada em San Diego, Califórnia, EUA. Ela se concentra na aplicação da tecnologia de IA em vários setores, incluindo jogos de animação e indústrias de transporte.
O modelo grande Ruyi foi projetado para rodar em placas gráficas de consumo e fornece instruções detalhadas de implantação e fluxo de trabalho ComfyUI para permitir que os usuários comecem rapidamente. Com seu excelente desempenho em consistência quadro a quadro, suavidade de movimento, apresentação e composição de cores, este modelo oferece novas possibilidades para narrativa visual e realiza aprendizado profundo para animações e cenas de jogos, tornando-o um parceiro criativo ideal para entusiastas de ACG.
O modelo Ruyi suporta geração de múltiplas resoluções e múltiplas durações e pode lidar com resoluções de 384×384 a 1024×1024, qualquer proporção de aspecto e geração de vídeo de até 120 quadros/5 segundos. Ele também suporta a geração de controle do primeiro quadro, do primeiro e do último quadro, controle de amplitude de movimento e cinco controles de lente. Ruyi é baseado na arquitetura DiT e consiste no módulo Casual VAE e no Diffusion Transformer. O tamanho total do parâmetro é de cerca de 7,1B e usa cerca de 200 milhões de videoclipes para treinamento.
Embora Ruyi tenha feito progressos significativos em tecnologia, ainda existem alguns defeitos, como deformidade nas mãos, colapso de detalhes faciais quando há várias pessoas e transições incontroláveis.
Olhando para o futuro, a TuSimple planeja continuar a se aprofundar nas necessidades da cena, alcançar avanços na geração direta de CUT e fornecer duas versões no próximo lançamento para atender às necessidades de diferentes criadores. A empresa está comprometida em usar modelos grandes para reduzir o ciclo de desenvolvimento e o custo da animação e do conteúdo do jogo. Os modelos grandes de Ruyi já podem gerar 5 segundos de conteúdo após inserir quadros-chave, ou inserir dois quadros-chave e o modelo irá gerar conteúdo de transição intermediário. reduzindo o ciclo de desenvolvimento.
Abraçando o link do rosto:
https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
Em suma, o lançamento de código aberto do grande modelo de Ruyi trouxe novas possibilidades para animação e criação de jogos. Embora existam algumas deficiências, seu potencial de desenvolvimento futuro é enorme. Vale a pena esperar pela otimização e melhoria do modelo pelo TuSimple. versões subsequentes.