최근 OpenAI와 소라 프로젝트의 혼란으로 인해 외부 세계는 번화한 AI 비디오 산업을 걱정하게 되었습니다.
9월말에는 o1 모델, GPT-4o, GPT-4v 모델 개발에 중요한 역할을 한 OpenAI의 CTO 미라 무라티(Mira Murati)와 연구 부사장 바렛 조프(Barrett Zoff)가 참석했다. 연구원 Bob McGrew도 출발을 발표했습니다.
10월 4일, Sora 프로젝트 리더인 Tim Brooks는 소셜 플랫폼 X에서 공식적으로 사임을 발표하고 Google DeepMind에 합류했습니다.
소라 정식 버전은 정해진 시간표가 없다는 점을 감안해 함께 먹으면 마치 스타 프로젝트의 거품이 터지고 게임에 참여하는 모두가 각자의 계획을 갖고 있는 익숙한 드라마처럼 될 것이다.
최근 AI 영상 경쟁이 더욱 치열해지기 시작했다.
유사웹(SimilarWeb) 통계에 따르면 지난 9월 세계 굴지의 AI 영상 생성 기업 루마 AI(Luma AI) 웹사이트의 총 방문 횟수는 1,181만 회에 불과해 전월 대비 38.49% 감소했다. 대히트를 기록한 피카 역시 9월 총 방문수가 감소했습니다. 지난 10월 새 버전에서 새로운 템플릿 효과가 대거 등장하며 다시 인기를 끌었지만, 과연 어떻게 계속해서 사용자들의 관심을 끌 수 있을지에 대한 의문이 점차 표면화됐다.
처음에는 Sora를 경계했던 일부 사람들이 현재 재평가되고 있습니다. 예를 들어 지난 4월 영화 제작자 Patrick Cederberg는 짧은 클립을 찾기 전에 모델에서 수백 개의 짧은 클립을 생성해야 한다고 말했습니다. 즉, 소라는 사용하기가 매우 어렵습니다.
다행스럽게도 Tim Brooks는 AI 비디오에 작별 인사를 하지 않았습니다. 그는 DeepMind의 AI 비디오 생성 도구인 Veo에 합류할 가능성이 높습니다. 소라의 흥망성쇠가 AI 영상 산업의 유일한 기준은 아닐 수도 있다. 적어도 역량 측면에서는 메타무비젠 같은 도전자들이 소라를 죽였다고 주장하기 시작했다. 국내 AI 영상상품 생태계에도 새로운 변화가 일어나고 있다.
즉, AI 비디오 트랙의 냉각은 다음 번 더 나은 제품이 반복되기 전의 임신 기간이기도 합니다. 최근에는 충분히 놀라운 제품이 대중의 눈에 들어온 것 같습니다.
01
PixVerse V3는 실제로 차원의 벽을 허물었습니다.
시중에 나와 있는 AI 영상 제품이 너무 많아 사람들이 '시각적 피로'를 느끼기 시작한 지금, PixVerse V3는 과연 충분히 특별한 것일까?
비슷한 의심이 든다면, 이 피카츄의 등장만으로도 대부분의 의심이 풀릴 것입니다.
재현이 불가능한 기자회견 시연을 제외하면, AI 영상 세대에서 2차원 이미지와 현실 세계가 이토록 조화롭게 상호작용할 수 있는 것은 아마도 처음일 것이다.
사진 속 이 피카츄의 이미지는 우리가 만화에서 기억하는 것과 똑같습니다. 하지만 실제 번화한 거리에 등장한 후 동생의 품에 뛰어들었습니다.
이 비디오에 필요한 프롬프트는 다음과 같습니다.
중앙 전면 카메라: 피카츄는 번화한 도시 거리에 배낭 여행자 옆에 서 있고, 피카츄는 뒤에서 달려갑니다. 배낭 여행자의 품에 뛰어들었습니다. 피카츄는 행복하게 목을 안고 매우 가까워졌습니다. 보행자들은 서두르고, 배낭여행자들은 피카츄를 앞으로 데리고 나갔고, 피카츄의 볼은 흥분으로 반짝거리며 순간을 빛냈다. 매력적이고 수월합니다.
1934년 MGM이 제작한 '할리우드 파티'에서 지미 듀란트가 '미키 마우스'를 손가락으로 쥐는 액션은 90년 후 만화와 실사를 결합한 세계 영화 역사상 최초의 고전 장면이 되었으며, 이 효과는 가득하다. 독창성은 있지만 구현하기가 매우 번거로운 작업을 마침내 AI로 수행할 수 있습니다.
어처구니 없는 것은 피카츄가 AI로 만들어졌다는 것과, 피카츄가 사는 현실 세계도 AI가 만들었다는 점이다. 효과로 볼 때 Pixverse V3는 현실 세계로 들어가는 애니메이션을 매우 원활하게 이해하고 있습니다.
피카츄뿐만 아니라, 너무 많은 요소가 포함되어 있는 것처럼 보이는 다음 프롬프트를 사용하여 기차역에 들어가는 마리오 삼촌의 비디오를 생성할 수도 있습니다.
영상에는 기차를 기다리는 다양한 승객들로 가득 찬 분주한 기차역의 모습이 담겨 있는데, 둥근 얼굴에 통통한 이탈리아 캐릭터 슈퍼마리오가 상징적인 빨간 모자를 쓰고 활기찬 분위기를 카메라에 담았습니다. 파란색 작업복. 마리오가 자신감 있게 플랫폼 위로 올라서는 모습을 카메라가 바짝 따라가고, 그의 얼굴은 흥분으로 빛나고 있습니다. 동영상은 사실적인 스타일입니다.
영상 속 기차역은 기차를 애타게 기다리는 온갖 승객들로 붐비고 있습니다. 카메라는 현장을 가로질러 이동하며 생생한 분위기를 포착합니다. 기차가 천천히 승강장에 다가가자 카메라는 키가 크고 동그란 얼굴의 이탈리아 캐릭터 슈퍼마리오를 따라가는데, 그의 상징적인 빨간 모자와 파란색 작업복을 입은 슈퍼마리오는 얼굴에 들뜬 미소를 지으며 자신있게 승강장으로 걸어간다. 영상의 스타일이 매우 현실적입니다.
사진 속에는 뚜렷한 주인공인 마리오가 있는데, 그 뒤에 있는 분주한 군중들은 각기 다른 움직임의 디테일을 가지고 있으며, 마리오가 카메라를 따라 앞으로 걸어가는 동안 애니메이션 캐릭터가 실제 환경과 교차하는 가장자리도 매우 명확하게 처리됩니다. 그리고 깔끔하게, 동시에 기차도 역에 들어섰습니다.
만화 캐릭터가 귀하의 식욕을 만족시킬 수 없다면 PixVerse V3가 큰 장면에서 어떻게 작동하는지 살펴보겠습니다.
——키워드: 용이 잠들다.
전체 프롬프트는 다음과 같습니다.
물속으로 뛰어드는 용의 스테디캠 추적 샷을 찍은 스님이 감사의 표시로 팔을 들어올립니다.
스테디캠 추적: 용은 물속으로 뛰어들고 스님은 감사의 표시로 팔을 듭니다.
Prompt에서 언급한 디테일은 아직 영상이 부족하지만, 전체적으로 카메라 움직임의 일관성, 우울한 톤을 활용해 화면의 긴장감을 미묘하게 표현하는 능력, 멀리서 버려진 몬스터의 활용 등이요. PixVerse V3의 비디오 생성 기능은 영화 수준의 화질에 접근하기 시작했습니다.
Vincent 비디오 외에도 이번에 PixVerse V3는 뛰어난 이미지 기반 비디오 기능도 선보였습니다.
Tusheng의 비디오는 매우 상상력이 풍부합니다. 멋진 미국 서부 영화 포스터를 찾아 프롬프트를 추가하고 품질이 좋지 않은 리볼버를 만나는 것과 같은 "터무니없는" 일을 하게 할 수 있습니다.
프롬프트는 다음과 같습니다.
전체 프롬프트는 다음과 같습니다.
권총은 검은 연기를 내며 불발되어 남자의 얼굴을 더럽힌다.
권총이 발사되지 않고 검은 연기가 나오며 남자의 얼굴을 더럽혔다.
Wensheng 비디오 및 Tusheng 비디오 기능 측면에서 PixVerse V3의 가장 뚜렷한 느낌은 일반 사람들의 일상 생활의 관심 지점에 매우 가깝다는 것입니다. 실제로 영상 제작 관련 전문 실무자를 제외하고 완벽한 영화 및 TV 작품을 제작하기 위해 AI 영상 소프트웨어를 사용할 필요가 있는 사람은 많지 않습니다. 오히려, 영상 생성 능력을 막 사용해본 사람들이 이 능력이 현실 세계에서 플레이할 수 있는지, 심지어 자신도 플레이할 수 있는지 궁금해하는 사람들이 더 많습니다. 예를 들어, 매일 외출하는 장소에 좋아하는 만화 캐릭터를 소개할 수도 있고, 아이언맨과 같은 만화 캐릭터로 변신할 수도 있습니다.
현재 AI 영상제품이 겪는 어려움 중 상당수는 기술력의 자기홍보에 갇혀 사용자가 사라진 데서 비롯된다. 빈센트 영상 기술이 막 등장한 현 단계에서 대부분의 일반 사람들이 좋아할 만한 것은 자신에게 충분히 가깝고 친근한 AI 영상 제품일 것이다.
이런 관점에서 볼 때, 현재의 PixVerse V3는 사용자의 마음을 가장 정확하게 추측하는 제품이 될 수 있습니다.
PixVerse V3의 놀라운 점은 PixVerse V3 뒤에 있는 대규모 AI 비디오 모델의 반복 기능뿐만 아니라 신속한 단어 이해 기능의 최적화 때문이기도 합니다. 주의 깊은 사람들은 위의 프롬프트 예시를 보고 이 점을 알아차렸을 것입니다.
"주제 + 주제 설명 + 움직임 + 환경"은 AI 비디오 생성의 효율성을 극대화하는 프롬프트 공식입니다. V2.5와 비교하여 이제 PixVerse V3에 "샷 설명" 차원을 추가할 수 있습니다.
물론 프롬프트는 이 공식을 따르는 것 외에도 캐릭터의 행동을 최대한 자세히 설명하고 지나치게 단순화된 설명을 피해야 합니다.
동시에 PixVerse V3는 출력 비디오의 선택 범위가 더 다양합니다. 출력 비디오 형식 측면에서 PixVerse V3는 16:9, 9:16, 3:4, 4:3 및 1을 포함한 다양한 비디오 비율을 지원합니다. :1. 이번 버전 업데이트 이후 스타일화 기능도 업그레이드되었습니다. 이제 Vincent Video와 Tusheng Video의 두 가지 모드가 애니메이션, 현실, 클레이, 3D의 네 가지 스타일 선택을 지원합니다.
한마디로 PixVerse V3는 이번에 더욱 강력해졌을 뿐만 아니라 제품 설명을 한 줄씩 사용자 손에 넣어주고 싶어합니다.
소셜 플랫폼 X에서는 많은 팬을 보유하고 있는 Pierrick Chevallier 등 AI 제품의 많은 팔로워들이 PixVerse V3를 사용하기 시작했습니다. 그는 PixVerse V3를 사용하여 생성한 비디오를 소개하기 위해 전용 게시물을 작성하기도 했습니다. 강력한 제너레이션 능력과 함께 눈길을 끄는 점은 '할로윈 분위기'가 물씬 풍기는 영상을 많이 선보이고 있다는 점이다.
02
이번 할로윈에는 PixVerse V3에서 "효과"를 수행해 보세요.
충분히 흥미로운 AI 영상 제품의 순환 고리를 돌파하려면 충분한 기술 지원 외에도 좋은 기회가 필요합니다. 말하자면, PixVerse V3의 출시는 적시에 이루어집니다.
11월 1일은 할로윈이고, 10월 말 이 순간은 젊은이들의 상상력이 최고조에 달하는 순간입니다. 할로윈 테마와 함께 PixVerse V3는 AI를 사용하여 주변의 모든 것에 "주문을 걸" 수 있도록 일련의 할로윈 테마 템플릿을 출시했습니다.
이번에 PixVerse V3에는 총 8개의 할로윈 테마 템플릿이 출시되었으며, 그 중 하나는 "살아있는 사람으로의 변신"에 중점을 두고 있습니다.
예를 들어, 도시에 갑자기 괴물이 나타난다.
이러한 큰 장면 외에도 PixVerse V3는 "I'm Waiting for You in the Rain"의 강아지가 사진에서 실제로 걸어 나오도록 만드는 등 사진의 요소를 직접 "살아있는" 상태로 만들 수 있습니다.
강아지는 일어서기 전에 머리를 올리는 자연스러운 움직임도 가지고 있습니다. 사진에서 나온 후 원본 사진에는 잔잔한 잔디밭 만 남았고 전체 효과가 상당히 놀랍습니다.
이 템플릿에는 더욱 상상력이 풍부한 게임플레이도 포함되어 있습니다. 예를 들어, 레오나르도 다빈치의 작품에 등장하는 비트루비우스적 인간(Vitruvian Man)이 자신을 구성하는 원 밖으로 나오도록 허용할 수 있습니까?
다음과 같은 것 :
할로윈에 이런 쇼를 펼칠 수 있다는 것만으로도 관객들을 놀라게 하기 충분하다.
이번에 PixVerse V3에서 할로윈을 위해 준비한 두 번째 유형의 템플릿은 추상적인 경로를 취합니다.
예를 들어, 철제 상자가 일어서서 도망가도록 해보자:
아니면 포르쉐를 조각조각 부숴서 블록 더미로 만들 수도 있습니다.
물론 이번에 PixVerse V3의 템플릿에는 다음과 같이 캐릭터 사진에 마법사 모자를 씌운 다음 움직이는 등 재생할 수 있는 할로윈과 같은 효과가 더 많이 포함되어 있습니다.
이러한 할로윈 템플릿은 PixVerse V3의 새로운 효과 기능에 포함되어 있습니다. 사용법은 매우 간단합니다.이미지를 업로드한 후 원하는 효과를 선택하고 클릭하면 생성됩니다. 중간에 프롬프트를 입력할 필요가 없습니다. 할로윈만 생각하는 사람들에게 매우 친숙합니다.
이번에 PixVerse V3는 자체 Wensheng 비디오 및 Tusheng 비디오를 기반으로 더 강력한 다중 모드 생성 기능을 보여줍니다. PixVerse V3는 이제 생성된 비디오에 사용자가 원하는 사운드 콘텐츠를 전달할 수 있으며, 원본 비디오가 충분하지 않은 경우 PixVerse V3는 이제 원본 비디오를 계속해서 추가로 만들 수 있는 기능이 있습니다.
이러한 다중 모드 생성 기능은 Effect와 함께 PixVerse V3에서 처음 선보이는 두 가지 새로운 기능이 되었습니다. 첫 번째 기능은 영상용 다국어 캐릭터의 동기화된 음성을 생성할 수 있는 립싱크 기능인 립싱크(Lipsync)이다.
Lipsync 기능을 사용하면 사용자가 자신의 카피라이팅을 입력하거나 생성된 비디오를 기반으로 오디오 파일을 업로드할 수 있으며, PixVerse는 카피라이팅 또는 오디오 파일 내용을 기반으로 비디오 속 캐릭터의 입 모양을 자동으로 조정합니다. 현재 립싱크는 30초 길이의 영상을 지원할 수 있으며, 립싱크가 가능한 언어는 영어, 중국어, 프랑스어, 일본어 등이 있다.
또 다른 기능은 영상을 확장하는 것, 혹은 스토리의 연속으로 이해될 수도 있다.
현재 생성된 비디오의 길이가 너무 짧다는 문제에 대응하여 PixVerse V3에서 사용자는 생성된 비디오를 선택하고 "확장" 버튼을 클릭한 후 비디오를 추가로 개발하는 방법과 관련된 프롬프트 단어를 입력하고 "만들기"를 클릭할 수 있습니다. ", 원본 영상은 제안된 방향이 캐릭터와 액션 간의 높은 일관성을 유지하면서 플롯 진행을 달성합니다.
다중 모드 비디오 생성 기능이 추가됨에 따라 PixVerse V3는 이제 더 큰 내러티브와 더 나은 시청각 효과를 갖춘 AI 비디오를 생성할 수 있으며 AI 비디오 생성의 경계가 더욱 넓어졌습니다.
실제로 재생할 수 있는 AI 비디오 제품 만들기
Aishi Technology의 창립자이자 CEO인 Wang Changhu는 올해 4월 인터뷰에서 "ChatGPT의 순간은 일반 사용자가 사용할 수 있는 순간이 될 것입니다."라고 말했습니다.
지난 2년 동안 대규모 모형 기술의 모든 새로운 빛은 마치 인간의 삶이 짧은 시간 안에 완전히 전복될 것처럼 생산 방식에 대한 새로운 거대 서사로 변모했습니다. 그러나 지금까지 이런 일은 일어나지 않았습니다.
동시에 Sora가 가져온 흥분과 지나치게 야심찬 기술적 상상력으로 인해 AI 비디오 제품의 전체 분야는 점차 집중력을 잃고 공공 생활과의 연관성을 찾지 못하게 되었습니다. 따라서 전문적인 도구로 포지셔닝된 런웨이와 같은 AI 영상 제품은 사용 문턱이 높아 그 순환에서 벗어나기가 어려운 반면, 일반에 더 많이 포지셔닝된 제품들은 대중은 모두가 시도한 후 '읽고 난 후' 딜레마에 빠졌습니다. "필터화"와 "특수 효과"의 단순한 논리.
즉, AI 생성 기능의 엄청난 개방성으로 인해 현재 AI 영상 분야의 거의 모든 제품이 일종의 반제품처럼 보이게 만드는 것입니다. 생성된 콘텐츠의 임의성과 통제 불가능성이 새로운 경험으로 포장된다는 의미이기도 합니다. 구체적이고 지속적인 시나리오에서는 사용하기 어렵다는 것입니다.
외부 세계가 Sora의 풍선맨 생성 능력에 놀랐을 때와 마찬가지로 Patrick Cederberg는 Sora의 콘텐츠 생성에 일관성이 부족하여 고민했습니다. 그는 풍선의 색상이 각 세대마다 바뀔 것이라고 불평했는데, 이러한 불완전성은 많은 것을 의미합니다. 후반 작업은 여전히 불가피합니다. 비슷한 문제가 많이 있기 때문에 1년 전 헐리우드가 대형 모델에 의해 영화 산업을 붕괴시킬 수 있다는 이유로 공격을 시작했지만 1년이 지난 후에도 소라는 여전히 영화와 TV의 워크플로에 실제로 참여할 수 없습니다.
현재 AI 비디오 제품은 비슷한 상황에 다소 갇혀 있습니다. AI 비디오 생성 기능은 오랫동안 모든 사람을 흥분시켰지만 AI 비디오 생성 제품은 여전히 아름다운 "셀러 쇼"입니다.”
새로운 기술의 격류 속에서 제품이 '구체적'으로 유지되기는 어렵습니다. 그러나 Aishi Technology가 원래 PixVerse 웹 버전에서 현재 PixVerse V3로 제공한 것은 드물고 명확하고 질서 있는 반복 경로입니다.
올해 1월, Aishi Technology는 PixVerse 비디오 제품인 PixVerse의 웹 버전을 공식 출시했습니다. 하지만 당시 PixVerse를 포함해 거의 모든 Wensheng 비디오 제품이 직면한 문제는 생성된 이미지를 제어할 수 없다는 점이었습니다. 이는 사용자가 통일된 캐릭터를 중심으로 비디오 콘텐츠를 지속적으로 생성할 수 없다는 것을 의미했습니다. 3개월 후 PixVerse 웹 버전에는 자체 개발한 대형 비디오 모델을 기반으로 개발된 C2V(Character to Video) 기능이 탑재되었으며, 이는 초기에 캐릭터 특징을 정확하게 추출하여 캐릭터를 고정함으로써 AI 비디오 제작의 일관성 문제를 해결했습니다.
비디오의 "역할"을 수정한 후 PixVerse는 생성된 콘텐츠의 동작의 "제어 가능성"에 대한 후속 반복에 중점을 두었습니다. 올해 6월 아이시테크놀로지(Aishi Technology)는 매직브러시(Magic Brush) 모션 브러시를 출시했다. 사용자는 영상 화면의 요소에 간단히 문지르기만 하면 각 요소의 움직임과 방향을 정밀하게 제어할 수 있다. PixVerse V2는 생성된 콘텐츠에 대한 충분한 제어 기능을 보여주는 것 외에도 생성된 효과를 미세 조정하는 방법도 크게 감소했습니다.
이것은 매우 명확한 의도를 가진 또 다른 반복입니다. 이전 인터뷰에서 Wang Changhu가 말했듯이 "특정 제품 형태를 시도해야 하지만 결국 우리는 여전히 대다수의 일반 사용자에게 서비스를 제공하기를 희망합니다."
비디오 생성 기능이 일반 사용자의 요구 사항을 직접적으로 충족할 수 없는 경우 전문 제작자에게 서비스를 제공하고 새로운 콘텐츠 생성 패러다임을 기반으로 하는 차세대 도구를 개발하는 것이 더 높은 우선순위입니다. “촬영 중에 AI가 배우, 장면, 카메라를 대체하는 등 제작 요소가 기술에 포함되면 AI 비디오 생성 기능이 대중에 의해 사용되기 시작하고 사용자 범위가 점차 확대되어 엄청난 기회가 창출될 것입니다. "
이번에 PixVerse 3V는 일반 사람들의 삶과 관련된 게임 플레이를 더 많이 도입하려고 시도했으며 Prompt를 사용하여 렌즈를 설정하려고 시도했습니다. 후자는 카메라를 부분적으로 교체하려는 시도로 볼 수 있습니다. 이러한 관점에서 Aishi Technology는 제품 방향을 다듬는 데 있어서 매우 단호한 길을 걸어왔습니다.
다양성이 아름다움인 AI 영상 세대의 기술 물결 속에서 아이시테크놀로지의 선택은 전체적인 흐름에 역행하고 거창한 서사에서 벗어나 AI 영상 제품이 어떻게 재생될 수 있는지에 대한 가장 구체적인 계획을 제시하는 것입니다.
사람들이 손에 쥐고 최대한 가지고 놀 수 있어야 AI 영상 애플리케이션이 소라가 주도하는 '셀러 쇼'에서 생동감 넘치는 '바이어 쇼'로 전환될 수 있다.
PixVerse V3의 놀라운 데뷔는 AI 비디오의 "냉각" 뒤에 있는 또 다른 긍정적인 변화의 시작일 수 있습니다.