Luchen 팀의 오픈 소스 Open-Sora 프로젝트는 720p 고화질 비디오 생성 분야에서 획기적인 발전을 이루었습니다. 효율적인 생성 속도와 고품질 출력은 놀랍습니다. 이 프로젝트는 GitHub에서 17.5,000개가 넘는 별을 빠르게 얻었고 업계의 폭넓은 관심을 받았습니다. 심지어 Lambda Labs에서도 모델 무게를 기반으로 디지털 LEGO 세계를 구축했습니다. Open-Sora는 사용하기 쉬울 뿐만 아니라 테이크아웃을 주문하는 것처럼 편리할 뿐만 아니라 더 중요한 것은 모델 무게와 세부적인 기술 경로를 열어 더 많은 개발자와 애호가가 참여하고 Wensheng 비디오 기술의 발전을 홍보할 수 있다는 것입니다.
최근 Luchen Open-Sora 팀은 720p 고화질 Wensheng 비디오의 품질과 생성 시간에서 획기적인 진전을 이루었습니다. 그들은 720p 고화질 비디오의 품질과 생성 시간에 있어서 큰 뉴스를 만들었을 뿐만 아니라 이 베이비 오픈 소스 덕분에 커뮤니티 전체가 흥분했습니다!
오픈소스 프로젝트를 통해 테이크아웃을 주문하는 것처럼 쉽게 비디오 생성을 할 수 있다고 해도 과언이 아닙니다. 지난 3월 데뷔한 이후 GitHub에서 별 17.5K개를 받으며 엄청난 인기를 누리고 있습니다!
오픈소스 주소: https://github.com/hpcaitech/Open-Sora
Open-Sora는 한 번의 클릭으로 16초 길이의 720p 고화질 비디오를 생성할 수 있습니다. 아름다운 인물 사진, 멋진 SF 블록버스터, 생생하고 흥미로운 애니메이션, 부드러운 줌 효과 등을 쉽게 처리할 수 있습니다. 아니요, 엔비디아가 지분을 갖고 있는 AI 기업인 람다 랩스(Lambda Labs)도 오픈소라 모델의 무게를 기반으로 디지털 레고 세계를 만들어 레고 팬들이 새로운 창의성의 세계를 찾을 수 있도록 했습니다.
Luchen 팀은 모델 가중치를 오픈 소스로 제공했을 뿐만 아니라 GitHub에 기술 경로를 게시하여 모든 플레이어가 대규모 비디오 모델의 마스터가 될 수 있도록 했습니다. 이 기술 보고서는 비디오 압축 네트워크부터 확산 모델 알고리즘, 제어 가능성에 이르기까지 모델 훈련의 핵심 및 요점을 심층적으로 분석합니다. 그들은 비디오 모델 훈련의 문제점을 해결하기 위해 1.1B 확산 생성 모델을 사용합니다.
신고 주소: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md
영상 압축 네트워크 도입 방식은 OpenAI의 Sora와 동일한 방식이다. 프레임 추출 없이 시간 차원에서 4배 압축이 가능하며, 원본 FPS를 활용한 동영상 생성이 가능합니다. 또한 팀은 공간 차원에서 먼저 8x8배 압축을 달성한 다음 시간 차원에서 4배 압축을 달성할 수 있는 간단한 비디오 압축 네트워크(예: VAE)를 제안했습니다.
Stable Diffusion3의 최신 확산 모델은 정류 흐름 기술을 통해 발전 품질을 향상시킵니다. Luchen 팀이 제공하는 기술에는 수정 훈련, 로짓 표준 시간 단계 샘플링 등이 포함되어 모델 훈련 속도를 높이고 추론 대기 시간을 줄입니다.
보고서에는 데이터 정리, 모델 튜닝 기법, 모델 평가 시스템 구축 등 모델 훈련의 핵심 내용도 공개됐다. 다양한 매개변수 조정을 지원하는 Gradio 애플리케이션의 원클릭 배포도 제공합니다.
루첸 오픈소라의 오픈소스는 닫힌 고리를 깨고 빈센트비디오의 혁신과 발전에 활력을 불어넣습니다. 사용자는 콘텐츠 소비자에서 제작자로 변했고 기업 사용자는 독립적인 개발을 위한 새로운 기술을 활용했습니다.
Open-Sora의 오픈 소스는 Wensheng 비디오 기술의 진입 문턱을 낮추고 미래의 창의적인 콘텐츠 생성을 위한 무한한 가능성을 제공하므로 후속 개발과 더 많은 응용 시나리오 탐색을 기대할 가치가 있습니다.