대형 모델은 속도가 핵심인 분야이지만 때로는 느림이 또 다른 속도일 수도 있습니다.
지난 8월 31일, 국내 AI 유니콘 기업 미니맥스 상하이 시유 테크놀로지 주식회사(이하 '미니맥스') 로우키가 제1회 개발자 컨퍼런스 '미니맥스링크 파트너 데이'에서 영상 모델 abab-video-1을 공개했다. 고해상도와 높은 프레임 속도에 초점을 맞춰 최대 6초 길이의 비디오를 생성할 수 있습니다.
즉, MiniMax가 언급한 비디오 모델은 OpenAI의 sora의 Vincent 비디오 모델과 유사합니다. MiniMax의 창립자이자 CEO인 Yan Junjie는 회사의 기본 대형 모델의 핵심 기술 연구 및 개발 목표가 "빠름"이라고 믿습니다. 그러나 비디오 모델은 Sora보다 몇 달 뒤쳐져 있습니다.
"출시가 한두 달 늦어지는 이유는 무엇입니까? 핵심은 우리가 더 어려운 기술적 문제, 즉 상대적으로 높은 컴퓨팅 성능으로 사물을 기본적으로 훈련시키는 방법을 해결하고 있다는 것입니다."라고 China Business News의 기자에게 말했습니다. training 영상 생성 기능을 개발할 때 먼저 영상을 토큰으로 변환해야 하는데, 이러한 토큰은 매우 길어질 것이고 복잡성도 더 높아질 것입니다. "사실 우리가 상반기에 주로 했던 일은 압축률을 높여서 한두 달 늦습니다.”
미니맥스는 내부 평가와 실행 점수를 바탕으로 회사의 비디오 모델이 런웨이보다 더 나은 성능을 발휘한다고 말했습니다. 현재 Keling은 멤버십 구독 플랜의 상용 모델을 출시했습니다. 그렇다면 미니맥스 영상모델의 비즈니스 모델은 어떻게 될까요? 이에 대해 옌준지에 씨는 "우리의 전략은 1~2주 정도 더 기다리는 것"이라며 "새로운 것이 나오고 좀 더 만족스러운 상태가 된 후에는 일부 상용화(조치)를 고려할 수도 있다"고 말했다.
그는 또한 모델의 급속한 발전으로 인해 AI 생성 비디오가 기존 렌더링 엔진을 대체할 수는 없지만 'Black Myth: Wukong'과 같은 3A 게임을 만들 수 있는 "적어도 가능성을 제공한다"고 언급했습니다.
좀 더 만족스러울 때만 상용화를 고려하세요
영상 모델의 상용화 경로는 언급되지 않았지만 Yan Junjie는 "회사 전체의 상용화는 기본적으로 두 가지 형태로 나뉜다. 한 가지 형태는 우리의 개방형 플랫폼으로, 현재 많은 유명 인사를 포함해 2,000명 이상의 고객을 보유하고 있다"고 말했다. 전통적인 기업을 포함한 인터넷 기업은 이미 사용자가 사운드와 비전을 사용할 수 있는 능력을 갖추고 있습니다. 모든 기업이 Kuaishou처럼 스스로 할 수 있는 것은 아니며 이것이 2B 부분입니다.
"두 번째는 우리 제품에도 광고 메커니즘이 있어 광고를 통해 상업적으로 수익을 창출할 수 있다는 것입니다." Yan Junjie는 현 단계에서 "가장 중요한 것은 상용화가 아니라 실제로 기술을 널리 사용할 수 있게 만드는 것"이라고 믿습니다. 유효성."
상대적으로 복잡한 기술이 적용된 AI 생성 영상(동영상 모델)은 올해 대형 모델 제조사들이 자신의 강점을 보여주거나 '근육을 휘두르기' 위해 일반적인 작업이 되었고, OpenAI가 이를 시작했습니다. 오픈AI는 올해 2월 대형 영상모델인 소라(Sora)를 출시했지만 아직 공개 테스트용으로 출시되지는 않았다. 4월, Shengshu Technology는 6월에 대형 비디오 모델 Vidu를 출시했고, Kuaishou는 7월에 대형 비디오 모델 Keling을 출시했으며, Zhipu AI 생성 비디오 모델 Qingying을 공식 출시했습니다.
MiniMax는 왜 비디오 모델을 만들고 싶어합니까? Yan Junjie는 인간이 매일 소비하는 콘텐츠의 대부분이 사진, 텍스트, 비디오이며 텍스트가 높은 비율을 차지하지 않는다는 것이 핵심이라고 말했습니다. 대형 모델 제조사에서 단순히 텍스트 기반의 콘텐츠를 출력하는 것이 아니라 멀티모달 콘텐츠를 출력할 수 있는 방법이 유일한 방법입니다."
이어 그는 "그냥 텍스트를 먼저 만들고 소리를 만들고 그림을 만든지 오래됐을 뿐인데 이제는 기술이 강해져서 영상도 만들 수 있다. 이 루트는 일관성이 있고, 멀티가 되어야 한다"고 덧붙였다. -modal."과거에는 MiniMax가 대규모 언어 모델, 그 다음에는 사운드 모델, 그 다음에는 이미지 모델을 만들었습니다." 그러나 이제는 기술이 더욱 강력해졌고, 이 경로도 다중화하는 능력이 있어야 합니다. 양식”.
AI 알고리즘 엔지니어 Zhang Yuxuan에 따르면 MiniMax는 비디오 모델의 구체적인 매개변수와 기술 포인트를 발표하지 않았지만 표시된 모델 생성 비디오를 통해 회사의 알고리즘이 여전히 매우 강력하고 Kuaishou의 Keling은 상대적으로 공학적이라는 것을 알 수 있습니다. 더 나은.
Yan Junjie는 기자들에게 "영상이든 텍스트이든 사운드이든 MiniMax 팀의 핵심 연구 개발 아이디어는 알고리즘을 5% 또는 10% 개선하는 것이 아닙니다. 더 중요한 것은 그것이 가능한지 여부입니다."라고 말했습니다. 여러 번 개선할 수 있다면 해야 하고, 5%만 늘어나면 할 가치가 없습니다.”
MiniMax의 비디오 모델은 현재 첫 번째 버전일 뿐이며 일정 기간 동안 사용자에게 무료로 제공될 예정인 것으로 알려져 있습니다. "후속 작업은 보다 사용하기 편리한 세부 사항을 포함하여 데이터와 알고리즘 자체에 중점을 둘 것입니다. 예를 들어 현재는 텍스트 기반 비디오만 제공됩니다. 앞으로는 사진 기반 비디오, 텍스트+그림 생성 비디오 , 편집 가능성, 제어 가능성 등이 차례로 출시될 예정입니다.”라고 Yan Junjie는 말했습니다.
"Black Myth: Wukong"은 여전히 인기가 있으며 AI는 게임에서 새로운 게임 플레이를 만들어냈습니다. 최근 Google은 고전 슈팅 게임 "Doom"의 게임 그래픽을 초당 20프레임으로 실시간 생성할 수 있는 최초의 완전 AI 기반 실시간 게임 엔진인 GameNGen을 만들었다고 논문에서 지적했습니다. 게임 그래픽은 플레이어의 조작과 복잡한 환경과의 상호작용을 기반으로 실시간으로 생성되며 각 프레임은 확산 모델에 의해 예측됩니다.
그렇다면 AI가 실시간으로 3A급 게임 걸작을 만들어내는 일은 먼 미래에 일어날 일일까요? Yan Junjie는 "Black Myth: Wukong"이 여전히 전통적인 모델링 및 렌더링 방법을 사용하고 있다고 말했습니다. 이 방법은 매우 느리게 진행되었습니다. 2년 전의 텍스트 생성은 전혀 불가능할 수 있습니다. 현재 이용 가능하며 빠르게 발전하고 있습니다.
"(비디오 생성)은 사실 시작에 불과합니다. 이제 첫 해에 불과하기 때문에 진행 속도는 확실히 매우 빠를 것입니다. 기존 렌더링 엔진을 대체할 수 있을지는 모르겠지만 적어도 가능성을 제공할 수는 있습니다. 진행 속도가 빠르기 때문에 장기적으로 진행 속도가 빠를수록 좋습니다." Yan Junjie가 말했습니다.
사용량 대폭 증가 및 모델 경쟁력 강화
Fast는 Yan Junjie가 여러 번 언급한 키워드입니다. "MoE, 선형 주의 또는 기타 탐색을 수행할 때 핵심은 동일한 효과 모델을 더 빠르게 만드는 것입니다." Yan Junjie는 빠른 것이 좋다고 말했습니다. 이는 동일한 컴퓨팅 성능이 더 좋아질 수 있다는 것을 의미합니다. 기본 R&D.
동시에 그는 모델의 오류율을 지속적으로 줄이는 방법, 무한히 긴 입력 및 출력, 다중 모드가 업계가 계속 해결해야 할 세 가지 과제라고 지적했습니다.
회사에 따르면 MiniMax는 과거 MoE(Mixture of Experts, 혼합 전문가 모델)와 Linear Attention(선형 주의)을 포함하여 두 가지 핵심 기반 기술 변화를 경험했습니다. 올해 4월에는 GPT-4o에 필적하는 MoE+ Linear Attention을 기반으로 한 차세대 모델을 개발했습니다.
공개된 정보에 따르면 MiniMax는 2021년 12월에 설립된 인공지능 스타트업 회사입니다. SenseTime의 전 부사장이자 전 연구소 부국장인 Yan Junjie가 설립한 회사의 구성원은 주로 유명 AI 출신입니다. SenseTime과 같은 회사.
Tianyancha는 올해 3월에 MiniMax가 Alibaba를 투자자로 하여 6억 달러 규모의 시리즈 B 자금 조달을 완료했으며 그 가치는 25억 달러에 달했다고 밝혔습니다. 앞서 미니맥스는 지난 2023년 6월 2억5000만달러가 넘는 시리즈A 파이낸싱을 완료했고, 투자자는 텐센트인베스트먼트였다.
미니맥스는 창립 1년 만에 텍스트-시각(text-to-visual), 텍스트-음성(text-to-speech), 텍스트-텍스트(text-to-text) 3가지 모드의 기본 모델 아키텍처를 독자적으로 개발하고, 기본 모델을 기반으로 전산 추론 플랫폼을 구축했다.
제품 측면에서는 미니맥스가 B사이드와 C사이드 시장을 모두 담당하고 있다. C사이드 애플리케이션에는 롤플레잉 AI 채팅 애플리케이션 글로우(Glow), AI 소셜 소프트웨어 호시노(Hoshino), AI 음성 대화 도우미 콘치 위챗(Conch WeChat) 등이 있다. B-side는 기업을 위한 맞춤형 솔루션을 제공합니다. API 인터페이스를 통해 기업은 Huoshan Engine, Kingsoft Office, DingTalk, Zhaopin Recruitment 및 China Literature와 같은 회사에서 ABAB 모델의 다양한 기능에 액세스할 수 있습니다. 공식 데이터에 따르면 MiniMax의 모델은 현재 하루에 30억 번 이상 글로벌 사용자와 상호 작용하며 3조 개 이상의 텍스트 토큰, 2천만 장의 사진 및 70,000시간의 음성을 처리합니다. 1년 전에는 MiniMax 상호 작용 시간이 ChatGPT의 3%에 불과했지만 지금은 이 비율이 53%로 늘어났습니다.
5월부터 대형 모델 분야에서 가격 전쟁이 터지면서 API는 '양배추 가격'까지 떨어졌다. Yan Junjie는 대형 모델 가격 전쟁에 대해 언급하면서 가격 전쟁으로 인해 많은 전통 기업이 대형 모델을 기꺼이 사용하기 시작했으며 "객관적으로 말하면 모델 호출 수가 크게 증가했습니다"라고 지적했습니다.
동시에 이는 측면에서도 모델 성능 향상을 촉진한다. 중국의 대형 모델은 동남아시아 및 기타 해외 국가에서도 경쟁력을 갖추게 됐다. "국내 모델 간의 경쟁이 너무 치열해서 앞으로 나아가야 합니다. 적어도 비영어권 국가에서는 GPT와 비슷한 수준을 달성할 수 있습니다."라고 Yan Junjie는 경쟁이 불가피하다고 말했습니다. 낙관적인 측면은 두 가지 긍정적인 변화를 보여준다. 첫째, 국산 대형 모델의 사용이 크게 늘고 있다는 점, 둘째, 중국 모델의 해외 경쟁력이 점점 더 높아지고 있다는 점이다.
Yan Junjie는 대부분의 회사에서 대형 모델이 비싸다고 생각했지만 나중에는 많은 사람들이 대형 모델이 저렴하고 안심하고 사용할 수 있다고 생각했다고 말했습니다. 결국 많은 전통적인 회사들이 대형 모델을 기꺼이 사용한다는 사실에 놀랐습니다. 어쨌든 비용이 저렴하고 실수를 해도 상관없다고 생각합니다. 객관적으로 말하자면, 이로 인해 모델 호출 횟수가 크게 증가하여 모델이 더 잘할 수 있도록 촉진되었습니다. 적어도 현재로서는 영어가 아닌 언어에서는 국내 대형 모델의 수준이 GPT와 비슷합니다. 따라서 낙관적인 관점에서 볼 때 국내 대형 모델의 사용은 실제로 크게 증가하고 있으며 중국의 대형 AI 모델은 실제로 해외에서 점점 더 경쟁력을 갖추고 있습니다.
주요 인터넷 기업과의 정면 경쟁 가능성에 대해 이야기하면서 Yan Junjie는 자신이 할 수 있는 것은 더 강해질 수 있는 잠재력을 무한히 증폭시키는 것이라고 말했습니다. 사용자와 더 잘 협력하십시오.