Colossal-AI 팀은 재생산 비용 절감과 성능 향상을 목표로 소라 알고리즘 재생 솔루션 Open-Sora를 오픈소스화했습니다. 이 솔루션은 데이터 처리부터 훈련 추론까지 전체 프로세스를 다루고, 다중 모델 구조, 비디오 압축 방법 및 병렬 훈련 최적화를 지원하여 훈련 효율성을 크게 향상시킵니다. Open-Sora는 DiT-XL/2 모델을 사용하여 단일 H800 SXM 8*80GB GPU에서 600K 시퀀스 길이의 성능 테스트를 수행한 결과 성능 향상 및 비용 절감이 40%를 초과하는 것으로 나타났습니다. 이 프로젝트는 연구원과 개발자에게 편의를 제공하기 위해 완벽하고 효율적인 Sora 복제 솔루션을 제공하기 위해 최선을 다하고 있습니다.
Colossal-AI는 완전한 Sora 반복 아키텍처 솔루션인 Open-Sora를 오픈 소스화하여 반복 비용을 46% 줄이고 모델 훈련 입력 시퀀스 길이를 819K 패치로 확장한다고 주장합니다. Sora 알고리즘 재생 솔루션 Sora의 기술 보고서에서 Sora는 비디오 압축 네트워크를 사용하여 다양한 크기의 비디오를 잠재 공간의 일련의 시공간 블록으로 압축한 다음 확산 변환기를 사용하여 잡음 제거를 수행하고 최종적으로 디코딩하여 비디오를 생성합니다. Open-Sora는 데이터 처리부터 훈련 추론까지 전체 프로세스를 포함하여 Sora가 완전한 Sora 반복 아키텍처 솔루션을 제공하는 데 사용할 수 있는 훈련 파이프라인을 요약합니다. 현재 Open-Sora는 데이터 처리부터 훈련 추론까지 전체 프로세스를 포함하여 동적 해상도, 다중 모델 구조, 다중 비디오 압축 방법 및 다중 병렬 훈련 최적화를 지원하는 완전한 Sora 반복 아키텍처 솔루션을 제공했습니다. 성능 측면에서 단일 H800 SXM 8*80GB GPU에서 DiT-XL/2 모델의 성능 테스트를 예로 들면, 시퀀스 길이 600K에서 Open-Sora 솔루션은 40% 이상의 성능 향상을 보였으며 기본 솔루션에 비해 비용이 절감됩니다. 오픈소라 오픈소스 주소: https://github.com/hpcaitech/Open-Sora.Open-Sora의 오픈 소스는 연구원과 개발자에게 귀중한 리소스를 제공하여 비디오 생성 기술의 발전을 가속화합니다. 높은 효율성과 저렴한 비용으로 인해 더 많은 사람들이 이 분야의 연구에 참여할 수 있을 것으로 기대됩니다. 앞으로도 Open-Sora의 더욱 개선과 발전을 통해 AI 영상 생성 분야에 더욱 기여할 수 있기를 기대합니다.