Beijing TuSimple Future Technology Co., Ltd.는 2024년 12월 17일 첫 번째 'TuSimple Video' 대형 모델인 'Ruyi'를 공식 출시하고 Ruyi-Mini-7B 버전을 오픈소스화했습니다. 이 모델은 소비자급 그래픽 카드용으로 특별히 설계되어 편리한 배포 및 사용 프로세스를 제공하며 프레임 간 일관성 및 모션 부드러움 측면에서 우수한 성능을 발휘하며 애니메이션 및 게임 제작자를 위한 강력한 창의적 도구를 제공합니다. 다중 해상도, 다중 지속 시간 비디오 생성을 지원하고 다양한 제어 기능을 갖추고 있어 콘텐츠 제작 주기와 비용을 효과적으로 줄일 수 있습니다. 이는 AI 기술 적용 분야에서 TuSimple의 중요한 단계를 의미하며 ACG 애호가에게 새로운 창의적인 경험을 제공합니다.
Beijing TuSimple Future Technology Co., Ltd.는 2024년 12월 17일에 첫 번째 "TuSimple Video" 대형 모델인 "Ruyi"를 공식 출시했으며 사용자가 허깅페이스 플랫폼에서 다운로드하여 사용할 수 있도록 Ruyi-Mini-7B 버전 오픈 소스를 만들었습니다. . TuSimple은 2015년에 설립되었으며 미국 캘리포니아주 샌디에이고에 본사를 두고 있으며 애니메이션 게임, 운송 산업을 포함한 다양한 산업에 AI 기술을 적용하는 데 중점을 두고 있습니다.
Ruyi 대형 모델은 소비자급 그래픽 카드에서 실행되도록 설계되었으며 사용자가 빠르게 시작할 수 있도록 자세한 배포 지침과 ComfyUI 워크플로를 제공합니다. 프레임 간 일관성, 모션 부드러움, 색상 표현 및 구성의 탁월한 성능을 갖춘 이 모델은 시각적 스토리텔링의 새로운 가능성을 제공하고 애니메이션 및 게임 장면에 대한 딥 러닝을 수행하므로 ACG 매니아에게 이상적인 크리에이티브 파트너가 됩니다.
Ruyi 모델은 다중 해상도 및 다중 기간 생성을 지원하며 384×384에서 1024×1024까지의 해상도, 모든 화면비 및 최대 120프레임/5초의 비디오 생성을 처리할 수 있습니다. 또한 첫 번째 프레임, 첫 번째 및 마지막 프레임 제어 생성, 모션 진폭 제어 및 5개의 렌즈 제어를 지원합니다. Ruyi는 DiT 아키텍처를 기반으로 하며 Casual VAE 모듈과 Diffusion Transformer로 구성됩니다. 총 매개변수 크기는 약 7.1B이며 훈련에 약 200M 비디오 클립을 사용합니다.
Ruyi는 기술적으로 상당한 발전을 이루었지만 손 변형, 여러 사람이 있을 때 얼굴 디테일 붕괴, 제어할 수 없는 전환과 같은 몇 가지 결함이 여전히 남아 있습니다. TuSimple은 향후 업데이트에서 이러한 문제를 개선하고 수정하기 위해 열심히 노력하고 있습니다.
미래를 내다보며 TuSimple은 계속해서 장면 요구 사항을 조사하고 CUT을 직접 생성하는 데 획기적인 발전을 이루며 다음 릴리스에서 다양한 제작자의 요구 사항을 충족하기 위해 두 가지 버전을 제공할 계획입니다. 회사는 대형 모델을 사용하여 애니메이션 및 게임 콘텐츠의 개발 주기와 비용을 줄이기 위해 최선을 다하고 있습니다. Ruyi 대형 모델은 이미 키 프레임을 입력한 후 5초의 콘텐츠를 생성하거나 두 개의 키 프레임을 입력하면 모델이 중간 전환 콘텐츠를 생성할 수 있습니다. 개발주기를 단축합니다.
포옹하는 얼굴 링크:
https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
전체적으로, Ruyi의 대형 모델의 오픈 소스 릴리스는 애니메이션과 게임 제작에 새로운 가능성을 가져왔습니다. 비록 몇 가지 단점이 있지만 향후 개발 잠재력은 엄청납니다. TuSimple의 모델 개선을 더욱 기대해 볼 가치가 있습니다. 후속 버전.