AI 영상의 새로운 시대를 연 소라의 탄생 이후, 국내외 주요 기업들이 AI 영상 대회에 잇따라 참가하고 있다. 그러나 보다 대화형이고 몰입도가 높은 비디오의 새로운 시대에 접어들면서 비용, 품질 및 성능 문제를 어떻게 해결해야 할까요?
지난 10월 15일, 볼케이노 엔진과 인텔은 비디오 클라우드 기술 컨퍼런스에서 대형 모델 훈련 영상 전처리 솔루션을 공동으로 출시했습니다. 매일경제 신문 기자는 기자간담회에서 이 기술 솔루션이 빈백 영상 생성 모델에 적용됐다는 사실을 알게 됐다.
기자회견에서 Bytedance Research의 Li Hang 대표는 Doubao 비디오 생성 모델 PixelDance가 훈련 과정에서 Volcano Engine의 대형 모델 훈련 비디오 전처리 솔루션을 채택하여 수많은 조석 자원을 최대한 활용하고 강력한 지원을 제공한다고 소개했습니다. 모델 훈련을 위해.
또한 Douyin Group의 비디오 아키텍처 책임자인 Wang Yue는 Byte가 자체 개발한 비디오 코덱 칩의 최신 진행 상황을 공개했습니다. Douyin Group의 내부 관행을 통해 검증된 이 칩은 동일한 비디오 압축에서 95% 이상의 비용을 절약합니다. 능률.
"우선 초대형 비디오 교육 데이터 세트로 인해 컴퓨팅 및 처리 비용이 급증했습니다." Wang Yue는 대형 모델 제조업체가 전처리 과정에서 많은 어려움에 직면하고 있다고 지적했습니다. 샘플 데이터가 고르지 않고 처리 링크도 많습니다. 프로젝트가 복잡하고 결국 GPU, CPU, ARM 등 여러 이기종 컴퓨팅 리소스의 일정과 배포에 직면하게 됩니다.”
자체 개발한 멀티미디어 처리 프레임워크
지난 9월 24일 볼케이노 엔진 AI 혁신 투어에서는 대형 빈백 영상 생성 모델 2종인 픽셀댄스(PixelDance)와 씨위드(Seaweed)가 함께 공개돼 업계 안팎의 이목을 집중시켰다. 실제로 비디오 생성 모델에 대한 ByteDance의 노력은 여기서 끝나지 않습니다.
10월 15일, Volcano Engine은 비디오 대형 모델 훈련의 비용, 품질 및 성능과 관련된 기술적 문제를 해결하는 데 전념하는 대형 모델 훈련 비디오 전처리 솔루션을 출시했습니다.
보고서에 따르면 훈련 비디오 전처리는 대규모 모델 훈련의 효과를 보장하기 위한 중요한 전제 조건입니다. 전처리 과정은 영상의 데이터 형식을 통일하고, 데이터 품질을 향상시키며, 데이터를 표준화하고, 데이터의 양을 줄이고, 주석 정보를 처리함으로써 모델이 영상 속 기능과 지식을 보다 효율적으로 학습하고 훈련을 향상시킬 수 있습니다. 효과와 효율성.
비디오 생성 모델 훈련에서 컴퓨팅 전력 비용은 의심할 여지 없이 가장 큰 과제입니다.
국내 비디오 생성 모델의 알고리즘 엔지니어는 "매일 경제 뉴스" 기자와의 인터뷰에서 고품질 데이터를 사용하면 비디오 모델이 대규모 언어 모델보다 훈련하기가 더 어렵고 현재 더 많은 컴퓨팅 성능이 필요하다고 말했습니다. , 알려진 오픈소스 비디오 모델은 특별히 규모가 크지 않은데, 이는 현재 많은 비디오 모델이 데이터 활용 방법을 모르는 단계에 있고, (훈련용) 고품질 데이터가 많지 않기 때문입니다."
컴퓨터 과학자 Matthias Plappert의 연구에 따르면 Sora의 교육에는 엄청난 컴퓨팅 성능이 필요하며, 모델이 생성되고 추론 단계에 도달하면 4,200~10,500대의 Nvidia H100을 교육하는 데 약 1개월이 소요됩니다. 교육 세션 이후에는 비용이 급격히 증가합니다.
비용 절감 문제를 해결하기 위해 Volcano Engine은 Intel의 CPU 및 기타 리소스를 활용하여 자체 개발한 멀티미디어 처리 프레임워크에 기반한 대형 모델 교육 비디오 전처리 솔루션을 사용합니다. Wang Yue는 이 솔루션이 알고리즘과 엔지니어링 측면에서도 최적화되어 대용량 비디오 데이터의 고품질 전처리를 수행하고 단시간에 링크 처리의 효율적인 협업을 달성하며 모델 훈련 효율성을 향상시킬 수 있다고 말했습니다.
이 솔루션의 적용과 관련하여 Li Hang은 기자회견에서 빈백 비디오 생성 모델 PixelDance가 훈련 과정에서 이 솔루션을 채택했다고 밝혔습니다. 동시에 Volcano Engine Video Cloud 팀이 제공하는 온디맨드 솔루션은 PixelDance에서 제작한 비디오의 편집, 업로드, 트랜스코딩, 배포, 재생까지 전체 라이프사이클에 대한 원스톱 서비스를 제공합니다. 모델의 상업적 적용.
이 밖에도 이번 컨퍼런스에서 볼케이노엔진은 다국어 동시 라이브 방송 솔루션, 멀티모달 영상 이해 및 생성 솔루션, 대화형 AI 실시간 상호작용 솔루션, AIG3D 및 대형 장면 재구성 솔루션도 공개했다. 비디오 제작 끝, 대화형 끝에서 소비자 끝까지 전체 링크에 AI 기능이 통합되어 있습니다.
AI 영상은 어디로 향하는가?
AI는 사람들이 모든 측면에서 정보를 생산, 전파 및 수신하는 방식을 바꾸고 있습니다. 그 중 새롭게 떠오르는 새로운 비디오 기술은 매끄럽고 고화질의 데이터 세계에서 사람들을 더욱 스마트하고 인터랙티브한 경험을 제공하는 AI 세계로 데려왔습니다.
올해 7월 SenseTime은 C-end 사용자를 위한 최초의 제어 가능한 캐릭터 비디오 생성 모델인 Vimi를 출시했으며, MiniMax는 9월에 비디오 생성 모델 video-1을 출시했으며 Keling AI는 9차 반복을 완료하고 "KeLing 1.5"를 출시했습니다. 모델", Alibaba Cloud는 Yunqi 컨퍼런스에서 새로운 비디오 세대 모델을 출시했으며 Byte도 2가지 비디오 세대 모델을 출시했습니다. AI 비디오 제품의 탄생과 반복에는 거의 몇 달이 걸립니다.
AI 영상 제품의 '폭발'과 관련해 베이징 사회과학원 부연구원 왕펑(Wang Peng)은 '매일경제뉴스' 기자와의 인터뷰에서 국내 AI 영상 제품이 급속한 발전 단계에 있으며, 지속적인 반복은 주로 강력한 시장 수요와 광범위한 응용 시나리오 및 다양한 상용화 모델로 인해 발생합니다.
현재 시중에 나와 있는 AI 비디오 제품은 대부분 영화, TV, 전자상거래 마케팅 및 기타 분야에서 구현되고 있습니다. 예를 들어 올해 7월 Jimeng AI와 Bona Pictures는 협력하여 국내 최초의 AIGC 생성 연속 제품을 출시했습니다. 서사 SF 단편 시리즈 "Sanxingdui: Future Enlightenment" "Record", 올해 9월 Kuaishou는 Jia Zhangke 및 Li Shaohong을 포함한 9명의 유명 감독과 팀을 이루어 "Keling AI" 감독 공동 창작 프로젝트를 시작했습니다.
산업정보부 정보통신경제전문위원회 판헬린 위원은 '매일경제신문' 기자에게 일부 AI 영상 제품이 현재 도입 단계에 있어 출시가 어렵다고 지적했다. “현재 AI 영상 제작 비용이 비싸고, 영상 제작자의 자금이 부족한 경우가 많아 오픈 소스(AI 영상 제품)가 비공개 제품보다 인기가 더 많은 것 같아요. 단말기에 다운로드된 소스 AI 알고리즘을 활용하면 영상을 더 잘 제작하고 생성할 수 있습니다."
그의 견해로는 이 단계의 AI 비디오 제품에는 주로 컴퓨팅 성능과 규정 준수 위험이라는 두 가지 장애물이 있습니다. "알고리즘, 컴퓨팅 성능 및 데이터 모두 기업이 더 많은 리소스와 시간을 투자해야 합니다. 또 다른 어려움은 규정 준수 위험에 있습니다. 요즘 개인 정보 보호에 대한 관심이 점점 더 높아지고 있습니다. 규정 준수는 피할 수 없는 주제이며, AI 비디오는 때때로 개인 정보 침해가 될 수 있습니다. 사생활 보호”라고 설명했다.
또한 분석 연구 파트너인 Chen Chen은 "Daily Economic News" 기자와의 인터뷰에서 "대형 AI의 높은 모델 훈련 및 추론 비용으로 인해 대형 비디오 생성 모델의 단기 수익화 능력에 대한 우려를 표명했습니다. C-side 사용자의 AI 도구에 대한 수요는 상대적으로 분산되어 있고 지불 의지도 부족합니다. C-end 시장에서 대형 비디오 모델의 상용화는 여전히 오랜 기간에 직면할 것입니다."
AI 영상 시대가 도래했지만 비용을 절감하고 효율성을 높이며 더 많은 시장을 확보하는 방법 또한 주요 인터넷 기업과 기술 기업이 직면한 중요한 과제가 될 것입니다.