Downcodes의 편집자는 비디오 생성 분야에서 상당한 진전이 이루어졌다는 것을 알게 되었습니다! Genmo는 100억 개의 매개변수를 갖고 있으며 현재 공개적으로 출시된 가장 큰 비디오 생성 모델인 최신 비디오 생성 모델 Mochi1을 오픈소스화했습니다. Mochi1은 간단하고 수정이 쉬운 혁신적인 AsymmDiT(Asymmetric Diffusion Transformer) 아키텍처를 채택하여 오픈 소스 커뮤니티 개발자에게 큰 편의성을 제공하고 최대 5.4초 길이, 최대 30프레임 속도로 고품질 비디오를 생성할 수 있습니다. 프레임/초.
비디오 생성 분야에서 획기적인 발전이 이루어졌습니다! Genmo는 최신 비디오 생성 모델인 Mochi1을 오픈 소스화하여 비디오 생성 분야에서 새로운 기준을 세웠습니다. Mochi1은 혁신적인 AsymmDiT(Asymmetric Diffusion Transformer) 아키텍처를 사용하고 최대 100억 개의 매개변수를 보유하여 현재까지 공개적으로 출시된 가장 큰 비디오 생성 모델입니다.
더 중요한 것은 처음부터 완전히 훈련되었으며 간단하고 수정 가능한 아키텍처를 갖추고 있어 오픈 소스 커뮤니티의 개발자에게 큰 편의를 제공한다는 것입니다.
Mochi1의 가장 큰 특징은 뛰어난 모션 품질과 텍스트 프롬프트의 정확한 준수입니다. 놀라운 시간적 일관성과 사실적인 모션 다이내믹스를 통해 최대 30프레임/초의 프레임 속도로 최대 5.4초 길이의 부드러운 비디오를 생성할 수 있습니다.
Mochi1은 또한 유체 역학, 모발 시뮬레이션 등과 같은 다양한 물리적 현상을 시뮬레이션할 수 있습니다. Mochi1이 생성하는 캐릭터는 자연스럽고 부드러운 움직임을 가지며 실제 성능과 거의 비슷합니다.
개발자가 더 쉽게 사용할 수 있도록 Genmo는 비디오 VAE를 오픈 소스화했습니다. 이는 비디오를 원래 크기의 1/128로 압축하여 모델의 계산 양과 메모리 요구 사항을 효과적으로 줄일 수 있습니다.
AsymmDiT 아키텍처는 다중 모달 self-attention 메커니즘을 통해 사용자 프롬프트와 압축된 비디오 태그를 효율적으로 처리하고 각 양식에 대해 별도의 MLP 레이어를 학습하여 모델의 효율성과 성능을 더욱 향상시킵니다.
Mochi1의 출시는 오픈 소스 비디오 생성 분야에서 중요한 단계입니다. Genmo 회사는 720p 비디오 생성을 지원하는 Mochi1HD를 포함하여 연말 이전에 Mochi1의 정식 버전을 출시할 예정이며, 이를 통해 비디오의 충실도와 부드러움이 더욱 향상될 것이라고 밝혔습니다.
더 많은 사람들이 Mochi1의 강력한 기능을 경험할 수 있도록 Genmo는 사용자가 genmo.ai/play에서 경험할 수 있는 무료 호스팅 놀이터도 출시했습니다. Mochi1의 가중치와 아키텍처는 개발자가 다운로드하여 사용할 수 있도록 HuggingFace 플랫폼에도 공개되었습니다.
Genmo는 DDPM, DreamFusion 및 Emu Video와 같은 프로젝트의 핵심 멤버로 구성되어 있으며 자문 팀에는 Databricks의 공동 창립자이자 회장인 Ion Stoica와 Covariant의 공동 창립자이자 OpenAI의 초기 팀원인 Anyscale이 포함되어 있습니다. ; 그리고 Turi의 개척자이자 공동 창립자인 Joey Gonzalez와 같은 언어 모델 시스템 업계 리더입니다.
Genmo의 임무는 일반 인공 지능의 우뇌를 잠금 해제하는 것이며 Mochi1은 가능하거나 불가능한 모든 것을 상상할 수 있는 월드 시뮬레이터를 구축하는 첫 번째 단계입니다.
Genmo는 최근 NEA가 주도하는 총 2,840만 달러 규모의 시리즈 A 자금 조달을 완료했으며, 이는 향후 연구 개발을 위한 충분한 재정적 지원을 제공할 것입니다.
Mochi1은 인상적인 결과를 얻었지만 여전히 몇 가지 제한 사항이 있습니다. 예를 들어, 초기 버전은 현재 480p 비디오만 생성할 수 있으며 극단적인 움직임의 일부 극단적인 경우에는 약간의 왜곡과 왜곡이 있습니다. 또한 Mochi1은 현재 실사 스타일에 최적화되어 있어 애니메이션 콘텐츠에서의 성능을 향상시킬 필요가 있습니다.
Genmo는 Mochi1을 계속해서 개선할 것이며 커뮤니티가 다양한 미적 선호도에 맞게 모델을 미세 조정하도록 권장한다고 말했습니다. 동시에 그들은 모든 비디오 생성이 윤리적임을 보장하기 위해 놀이터에서 강력한 안전 감사 프로토콜을 구현했습니다.
모델 다운로드: https://huggingface.co/genmo/mochi-1-preview
온라인 체험: https://www.genmo.ai/play
공식소개 : https://www.genmo.ai/blog
Mochi1의 오픈 소스는 비디오 생성 분야에 새로운 가능성을 제공하며, 강력한 기능과 편리한 사용을 기대할 가치가 있습니다. 젠모의 지속적인 노력과 활발한 커뮤니티 참여는 영상 제작 기술의 발전을 더욱 촉진할 것입니다. Mochi1HD의 등장과 더욱 혁신적인 성과의 등장을 기대합니다.