ByteDance, Kuaishou Video AI 정면 대결: 이해, 포착, 상상에는 차이가 있습니다

저자：Eve Cole 업데이트 시간：2025-02-09 23:48:02

ByteDance와 Kuaishou, 두 단편 영상 거대 기업이 AI 분야에서 정면 대결을 벌이고 있습니다.

11월 8일, ByteDance가 소유한 AI 콘텐츠 플랫폼인 Dream AI는 ByteDance가 개발한 비디오 생성 모델인 Seaweed가 플랫폼 사용자에게 공식적으로 공개되었다고 발표했습니다. 바이트댄스에 따르면 이번에 공개된 빈백 영상 생성 모델인 씨위드(Seaweed)는 이 모델의 표준 버전으로 기존보다 3~5분 빠른 5초짜리 고품질 AI 영상을 생성하는 데 60초밖에 걸리지 않는다. 모든 국내 산업 표준에는 생성 시간이 필요합니다.

"Daily Economic News" 기자들은 Jimeng과 Keling의 첫 번째 버전과 최신 버전에 대해 실제 테스트를 수행한 결과 반복 후 두 제품의 비디오 생성 효과가 여러 측면에서 개선되었으며 Keling이 공간에 있는 것을 발견했습니다. 레이아웃과 사진 세부정보가 더 정확해지고 생성된 콘텐츠 효과의 조정이 더 유연하고 편리해졌습니다. Jimeng은 생성 시간과 비디오 스타일 측면에서 이점을 갖고 있습니다.

비주얼 차이나

한 대형 모델 기술자는 비디오 생성 모델이 제작 콘텐츠의 다양한 '스타일'을 달성하는 것이 어렵다고 기자들에게 말했습니다. "기술 외에도 주로 데이터 소스의 풍부함에 따라 달라집니다."

짧은 시간 내에 여러 번의 반복 완료

ByteDance가 자체 개발한 비디오 생성 모델 Seaweed가 공개되면서 국내 비디오 생성 모델 대회에서 가장 흥미로운 쌍인 Ji Meng과 Ke Ling이 마침내 공식적으로 경쟁하게 되었습니다.

두 사람 모두 물리적 세계를 이해하고 상상력을 최대한 증폭시키는 동시에 '현실'을 이끌어낸다는 'AI 꿈 만들기 계획'을 가지고 있지만 스스로는 ByteDance와 Kuaishou의 책임도 맡고 있습니다.

실제로 Jimeng과 Keling은 1년도 채 되지 않아 여러 번의 반복 작업을 완료했습니다. Jimeng은 3월 말에 비디오 생성 기능에 대한 내부 테스트를 시작했습니다. ByteDance는 Doubao 모델 제품군인 Seaweed와 Pixeldance의 두 가지 비디오 생성 모델을 출시했으며 Jimeng AI와 Volcano Engine을 통해 소규모 테스트를 진행했습니다. Seaweed가 플랫폼 사용자에게 공개되었습니다. 공식적으로 오픈되었습니다.

산업정보기술부 정보통신경제 전문위원회 위원 판헬린(Pan Helin)은 '매일경제뉴스' 기자에게 지멍이 사용하는 새 모델의 생성 속도가 향상돼 사용자에게 더 나은 서비스를 제공한다고 말했다. "Jimeng AI는 현재 국내 세대 분야에서 여전히 선두를 달리고 있습니다."

케링은 지난 6월 '탄생' 이후 블록버스터가 됐다. 출시 이후 투셩 영상 기능 출시, 1.5 모델 출시 등 10차례 이상의 업데이트를 거쳤다. 현재 Keling은 360만 명 이상의 사용자를 보유하고 있으며 총 3,700만 개의 비디오를 생성했으며 가까운 시일 내에 공식적으로 독립 앱(응용 소프트웨어)을 출시할 예정입니다.

매일경제 기자는 오픈AI가 공식 발표한 소라 영상 프롬프트 단어 5개(도쿄 거리의 여인, 우주 비행사, 드론 관점의 해안, 3D 애니메이션 작은 괴물, 구름 속의 독서하는 청년)를 선정해 별도로 테스트했다. Menghe Keling의 첫 번째 버전과 최신 버전은 두 가지 비디오 세대 모델의 비디오 효과를 수직으로 비교합니다.

기자는 Jimeng의 원본 버전과 최신 버전으로 제작된 비디오 효과를 비교한 후 Jimeng의 업데이트에서 더 분명한 두 부분이 있음을 발견했습니다. 하나는 역동적인 "사람과 사물"의 성능에서 ;다른 하나는 그림 스타일의 차별화된 표현도 큰 진전을 이뤘다는 것입니다.

"도쿄 거리의 여인"을 예로 들면, 1세대 유메가 만든 캐릭터의 움직임이 뻣뻣했고, 특히 다리와 발의 움직임을 포착할 때 전체적인 효과가 흐릿하고 왜곡되었습니다. 반복된 새 버전의 Ji Meng은 자연스럽고 부드러운 캐릭터 움직임을 가지고 있으며, 발 역학의 세부적인 처리가 더 명확하고 현실 세계의 논리에 더 부합합니다.

꿈과 영혼 사이에는 분명한 차이가 있습니다

두 모델을 반복한 후에는 생성된 효과가 더욱 안정적이고 이미지 품질이 향상되었으며 부드러움과 디테일 처리가 정밀한 조사를 더 잘 견딜 수 있게 되었습니다. 그러나 의미론적 이해, 키워드 포착 및 증폭, 창의적 상상력과 창의적 타당성 간의 균형에서는 여전히 명백한 차이가 있습니다.

수평 비교, 최신 버전의 Jimeng과 1.5 모델 Keling을 비교하여 5개의 Sora 비디오 프롬프트 단어 표시를 비교합니다. 의미론에 대한 이해와 키워드 포착은 Jimeng과 Keling의 비디오 프레젠테이션을 다르게 만듭니다.

"드론 관점에서 본 해안" 영상에서 Ji Meng은 프롬프트 단어에서 "등대가 있는 섬"을 상대적으로 흐리게 처리했고, Ke Ling이든 Sora이든 이 장면의 초점은 "섬"이었습니다. 『해안고속도로』의 설명에서 꿈의 설정은 현실 세계의 논리와 일치하지 않는다.

'우주 비행사'의 영상 효과에서 지몽은 설명에서 '모험'을 설명하지 않았고, 재생 후 커피를 들고 오토바이를 타는 우주 비행사도 '모험' 설정을 무시했다. Ke Ling은 캐릭터의 표정과 카메라 움직임을 통해 '모험'을 강조합니다. 그러나 Ji Meng과 Ke Ling은 상대적으로 '영화 예고편' 설정을 무시한 반면, Sora의 'Spaceman' 비디오는 좀 더 영화적인 느낌을 줍니다.

"3D 애니메이션 작은 괴물" 비디오 생성에서 Ji Meng의 작은 괴물 설정은 애니메이션 영화 "Monsters, Inc."의 캐릭터 "Sally"와 거의 동일합니다. 프롬프트 속 작은 괴물에 대한 묘사, 즉 꿈의 제시 역시 '단발'이라는 설정을 구현하는 등 상대적으로 부정확하다. 또한 예술적 스타일의 표현 측면에서 프롬프트 단어는 "빛과 질감"을 강조합니다. 즉 꿈의 실행은 Ke Ling보다 약합니다.

비디오 "도쿄의 거리의 여인"에서 Ji Meng의 복잡한 다중 주제 상호 작용 표현 성능은 Ke Ling의 성능에 비해 좋지 않습니다. 사진의 주체인 '아가씨'와 공간에 대한 묘사는 비교적 정확하지만, 사진 속 보행자는 전반적으로 흐릿하고 클로즈업된 보행자는 왜곡되어 있다.

그러나 Jimeng AI는 가까운 시일 내에 Seaweed 및 Pixeldance 비디오 생성 모델의 Pro 버전을 사용할 수 있을 것이라고 공식적으로 밝혔습니다. Pro 버전 모델은 다중 피사체 상호 작용과 다중 샷 동작의 일관성을 최적화하는 동시에 다중 샷 전환의 일관성과 같은 문제를 극복합니다.

기능과 경험 측면에서 Keling은 여러 차례의 반복을 거쳐 비디오를 생성할 때 "창의적 상상력과 창의적 관련성" 매개변수를 조정하여 균형 조정이 이루어질 수 있습니다. Ke Ling은 흐림, 콜라주, 변형, 애니메이션 등 표시하고 싶지 않은 콘텐츠도 설정할 수 있습니다. 생성 작업이 더욱 유연해지고 효과를 조정할 수 있습니다.

테스트 후, 소라의 5가지 프롬프트 단어의 비디오 생성 시간은 각각 30분을 초과하지 않습니다. 하지만 1.5 모델로는 10초짜리 고화질 영상을 생성하는데 10분 이상이 걸린다.

위에서 언급한 Jimeng과 Keling이 생성한 비디오는 기자가 테스트하고 생성한 것입니다. 버전과 설명 세부 사항이 다르면 비디오 생성 효과에 차이가 발생할 수 있습니다.

AI 영상생성 분야의 전쟁

두 개의 단편 비디오 거대 기업 ByteDance와 Kuaishou의 경우 AI 비디오 생성 분야에서 서로의 상대는 서로 그 이상입니다.

예를 들어, 11월 8일 'AI의 여섯 작은 용' 중 하나인 Zhipu는 비디오 생성 도구인 Qingying을 업그레이드했습니다. 업그레이드된 Qingying은 모든 비율의 이미지에서 비디오 생성을 지원하며 동일한 명령이나 사진으로 한 번에 4개의 비디오를 생성할 수 있는 다중 채널 생성 기능을 갖추고 있습니다. 또한 Qingying은 그림에 맞는 음향 효과를 생성할 수 있습니다. 이 음향 효과 기능은 이번 달 공개 베타 버전으로 출시될 예정입니다.

앞서 미니맥스는 지난 8월 31일 자사 최초의 AI 고화질 영상 생성 모델 기술인 abab-video-1을 출시해 출시 첫 달 동안 잦은 리포트를 받았다. MiniMax의 공식 공개 계정에 따르면 Conch AI에서 비디오 모델이 출시된 후 첫 달 동안 Conch AI의 웹 버전 방문 횟수는 전 세계 180개 이상의 국가 및 지역을 포괄하며, 사용자 수가 800% 이상 증가했습니다. 지난 9월 AI제품 목록(웹) 1위에 올랐고, 글로벌 성장률 목록과 국내 성장률 목록에서도 1위를 차지했다.

베이징 사회과학원 경영연구소 부연구원 왕펑(Wang Peng)은 '매일경제뉴스' 기자에게 국내외 AI 영상 제품이 현재 급속한 발전 단계에 있으며, 해외 기술도 급속도로 발전하고 있다고 지적했다. Meta 및 Google과 같은 거대 기업은 국내에서 AI 비디오 분야에 적극적으로 배포하고 있으며 Kuaishou Keling, Jimeng AI 및 기타 제품도 사용자 경험 및 상용화 기능을 개선하기 위해 지속적으로 업그레이드되고 있습니다.

상용화 가능성 측면에서 올해 8월 Soochow 증권이 발표한 연구 보고서에서는 AI 보급률을 15%로 가정할 경우 중국 AI 비디오 생성 산업의 잠재적 공간은 3,178억 위안에 달한다고 언급했습니다. 영화, 장편 드라마, 만화, 단편극 등의 제작비는 기존 모델 대비 95% 이상 절감된다.

엄청난 잠재 시장 규모와 비용 절감 및 효율성 증대의 "초능력"은 Keling의 사용 데이터에서도 엿볼 수 있습니다.

지난 10월 열린 '2024년 중국 컴퓨터 컨퍼런스'에서 Kuaishou 부사장이자 대형 모델 팀장인 Zhang Di는 올해 6월 출시 이후 Kuaishou Keling AI가 360만 명 이상의 사용자를 보유하고 있으며, 총 3,700만 개의 동영상과 1억 개가 넘는 이미지를 보유하고 있습니다.

Pan Helin은 "Daily Economic News" 기자와의 인터뷰에서 Keling이 Kuaishou의 지원을 받고 트래픽 지원을 받기 때문에 상용화 과정이 매우 빠르다고 말했습니다. "AI 비디오 제품은 여전히 인터넷 플랫폼의 지원을 받아야 합니다. 트래픽은 상업적인 잠재력을 가질 수 있습니다." ".

마찬가지로 ByteDance도 비디오 모델의 상용화를 작업 목록의 최전선에 두었습니다. 올해 9월 두 가지 비디오 세대 모델이 출시되었을 때 Volcano Engine의 Tan Dai 사장은 새로운 빈백 비디오 세대 모델이 "출시 이후 상용화를 고려하고 있다"고 공개적으로 밝혔습니다. 사용 분야는 전자상거래 마케팅, 애니메이션 등입니다. 교육, 도시 문화 관광 및 대본.

"AI 비디오는 B면과 C면에서 서로 다른 상용화 잠재력을 보여줄 것입니다." Wang Peng은 B면에서 AI 비디오가 기업에 C에서 보다 효율적이고 저렴한 비디오 제작 및 배포 솔루션을 제공할 수 있다고 믿습니다. - AI 영상은 개인화된 고품질 영상 콘텐츠에 대한 사용자의 요구를 충족할 수 있으며, 전자상거래, 광고 및 기타 산업과 결합하여 보다 정확한 마케팅 및 수익화를 달성할 수도 있습니다.