MiniMax Ян Цзюньцзе: Быстрота хороша для больших моделей, но иногда медленная просто необходима для того, чтобы быть быстрее.

Автор：Eve Cole Время обновления：2024-11-22 18:24:02

Большие модели — это область, где скорость имеет решающее значение, но иногда медлительность может быть другим видом скорости.

31 августа отечественная компания-единорог MiniMax Shanghai Xiyu Technology Co., Ltd. (именуемая в дальнейшем «MiniMax») скромно представила видеомодель abab-video-1 на первой конференции разработчиков «MiniMaxLink Partner Day». слово-подсказка. Он может генерировать видеоролики продолжительностью до 6 секунд, уделяя особое внимание высокому разрешению и высокой частоте кадров.

Другими словами, видеомодель, упомянутая MiniMax, аналогична видеомодели Винсента соры OpenAI. Как основатель и генеральный директор MiniMax, Ян Цзюньцзе считает, что «быстрость» является основной целью технологических исследований и разработок базовой большой модели компании. Однако видеомодель отстает от Sora на несколько месяцев.

«Почему наш запуск задерживается на один или два месяца? Суть в том, что мы решаем более сложную техническую проблему, а именно: как изначально обучать вещи с относительно высокой вычислительной мощностью», — сказал Янь Цзюньцзе репортеру China Business News во время этого. обучение. При разработке возможностей генерации видео нужно сначала конвертировать видео в токены, а эти токены будут очень длинными, а сложность будет выше. Сложность. Сделайте степень сжатия выше, так что опоздание на месяц или два».

В MiniMax заявили, что, согласно внутренней оценке и текущим оценкам, видеомодель компании работает лучше, чем модель Runway. В настоящее время Keling запустил коммерческую модель членского плана подписки. Итак, какова будет бизнес-модель видеомодели MiniMax? В связи с этим Янь Цзюньцзе сказал: «Наша стратегия состоит в том, чтобы подождать еще неделю или две. После того, как появятся новые вещи и мы окажемся в более удовлетворительном состоянии, мы можем рассмотреть (принятие) некоторую коммерциализацию (меры)».

Он также упомянул, что из-за быстрого прогресса моделей, хотя видео, сгенерированные ИИ, не могут заменить традиционные движки рендеринга, они «по крайней мере дают возможность» для создания игр 3А, таких как «Black Myth: Wukong».

Рассматривайте коммерциализацию только тогда, когда вы будете более удовлетворены

Хотя путь коммерциализации видеомодели не был упомянут, Янь Цзюньцзе сказал: «Коммерциализация всей компании в основном разделена на две формы. Одна из форм — это наша открытая платформа, у которой сейчас более 2000 клиентов, в том числе многие известные Интернет-компании, в том числе традиционные предприятия, уже имеют возможность использовать звук и зрение. Не все компании могут сделать это самостоятельно, как Kuaishou. Мы хороший партнер, и это часть 2B».

«Во-вторых, наши собственные продукты также имеют рекламные механизмы, и рекламу можно монетизировать в коммерческих целях», — считает Янь Цзюньцзе, — что на нынешнем этапе «самое главное — это не коммерциализация, а действительно широкое распространение технологии». доступность."

Созданные искусственным интеллектом видеоролики (видеомодели) с использованием относительно сложных технологий стали в этом году обычной операцией для крупных производителей моделей, позволяющей продемонстрировать свою силу или «накачать мускулы», и OpenAI начала это делать. В феврале этого года OpenAI выпустила Sora, большую видеомодель, но она еще не выпущена для публичного тестирования. В апреле компания Shengshu Technology выпустила большую видеомодель Vidu, в июне Kuaishou выпустила большую видеомодель Keling, в июле была официально представлена видеомодель Qingying, созданная искусственным интеллектом...

Почему MiniMax хочет создать видеомодель? Янь Цзюньцзе сказал, что суть в том, что большая часть контента, который люди потребляют каждый день, — это изображения, тексты и видео, а текст не составляет большой доли «чтобы иметь очень высокий охват пользователей и более высокую глубину использования». крупный производитель моделей, единственный способ — иметь возможность выводить мультимодальный контент, а не просто вывод чисто текстового контента. Это очень важное решение».

Далее он упомянул: «Просто мы сначала создали текст, затем издали звуки и уже давно сделали изображения. Теперь, когда технология стала сильнее, (можем) также делать видео. Этот путь последовательный, он должен быть многократным. -модальный. «Раньше MiniMax создавал большие языковые модели, затем звуковые модели, а затем модели изображений», но теперь технология стала сильнее, и она также должна создавать видео. Этот путь должен быть последовательным. модальность».

По словам инженера по алгоритмам искусственного интеллекта Чжан Юйсюаня, хотя MiniMax не объявила конкретные параметры и технические моменты видеомодели, из отображаемого видео создания модели видно, что алгоритм компании все еще очень силен, а Келинг Куайшоу является относительно инженерным. лучше.

Ян Цзюньцзе заявил журналистам: «Будь то видео, текст или звук, основная идея исследований и разработок команды MiniMax заключается не в том, чтобы улучшить алгоритм на 5% или 10%. Гораздо важнее то, можно ли это сделать». улучшилось в несколько раз. Если его можно улучшить в несколько раз, то это необходимо сделать, не стоит этого делать, если оно увеличится только на 5%.

Понятно, что видеомодель MiniMax в настоящее время является только первой версией и какое-то время будет предоставляться пользователям бесплатно. Новая версия будет доступна в ближайшее время. «Последующая работа будет сосредоточена на самих данных и алгоритме, включая детали, которые более удобны в использовании. Например, в настоящее время предоставляются только текстовые видео. В будущем будут видео на основе изображений, видео, созданные с помощью текста и изображений. , а также возможность редактирования и управления будут выпущены одна за другой», — сказал Ян Цзюньцзе.

«Черный миф: Вуконг» по-прежнему популярен, а ИИ создал в игре новый игровой процесс. Недавно компания Google отметила в своей статье, что они создали первый игровой движок реального времени, полностью управляемый искусственным интеллектом — GameNGen, который может генерировать игровую графику классической игры-стрелялки «Doom» в реальном времени со скоростью 20 кадров в секунду. игровая графика генерируется в реальном времени на основе действий игрока и взаимодействия со сложной средой, а каждый кадр прогнозируется моделью диффузии.

Итак, будет ли в далеком будущем, когда ИИ сможет создавать игровые шедевры 3А в реальном времени? Ян Цзюньцзе сказал, что «Черный миф: Укун» до сих пор использует традиционный метод моделирования и рендеринга. Этот метод развивался очень медленно. Создание видео и создание текста два года назад могли быть вообще недоступны. теперь доступен и быстро развивается.

«(Генерация видео) на самом деле только начало, потому что это только первый год, и прогресс определенно будет очень быстрым. Я не знаю, сможет ли он заменить традиционный движок рендеринга, но, по крайней мере, он может предоставить возможность Поскольку прогресс быстрый, в долгосрочной перспективе, чем быстрее прогресс, тем лучше», — сказал Янь Цзюньцзе.

Значительный рост использования и повышение конкурентоспособности модели.

Быстро — это ключевое слово, которое Янь Цзюньцзе много раз упоминал. «Независимо от того, проводим ли мы МО, линейное внимание или другие исследования, суть в том, чтобы сделать одну и ту же модель эффекта быстрее», — сказал Ян Цзюньцзе, что быстро — это хорошо, а это означает, что та же вычислительная мощность может стать лучше. Это подход MiniMax. лежащие в основе НИОКР.

В то же время он также отметил, что как постоянно снижать частоту ошибок модели, бесконечно длинные входные и выходные данные, а также мультимодальность — это три проблемы, которые отрасль должна продолжать решать.

По данным компании, в прошлом MiniMax претерпела два ключевых основных технологических изменения, включая MoE (Mixture of Experts, смешанная экспертная модель) и Linear Attention (линейное внимание). В апреле этого года компания разработала модель нового поколения на основе линейного внимания MoE+, сравнимую с GPT-4o.

Публичная информация показывает, что MiniMax — это стартап в области искусственного интеллекта, основанный в декабре 2021 года. Он был основан Яном Цзюньцзе, бывшим вице-президентом SenseTime и бывшим заместителем директора исследовательского института. Ее члены в основном представляют известные ИИ. такие компании, как SenseTime.

Tianyancha показывает, что в марте этого года MiniMax завершила финансирование серии B на сумму 600 миллионов долларов США с Alibaba в качестве инвестора, а ее оценка достигла 2,5 миллиардов долларов США. Ранее, в июне 2023 года, MiniMax завершила финансирование серии А на сумму более 250 миллионов долларов США, инвестором выступила Tencent Investment.

Через год после своего основания MiniMax независимо разработала архитектуру базовой модели трех режимов: преобразование текста в изображение, преобразование текста в речь и преобразование текста в текст, а также построила платформу вычислительных рассуждений на основе базовой модели.

Что касается продуктов, MiniMax заботится как о рынках B-стороны, так и C-стороны. Приложения C-стороны включают в себя ролевое приложение для чата с искусственным интеллектом Glow, социальное программное обеспечение с искусственным интеллектом Hoshino, помощник по голосовому общению с искусственным интеллектом Conch WeChat и т. д. Сторона B предоставляет индивидуальные решения для предприятий. Интерфейс API позволяет предприятиям получать доступ к различным возможностям модели ABAB. Такие компании, как Huoshan Engine, Kingsoft Office, DingTalk, Zhaopin Recruitment и China Literature, пользуются ее услугами. Официальные данные показывают, что модели MiniMax в настоящее время взаимодействуют с пользователями по всему миру более 3 миллиардов раз в день, обрабатывая более 3 триллионов текстовых токенов, 20 миллионов изображений и 70 000 часов голосовой связи. Год назад время взаимодействия MiniMax составляло всего 3% от ChatGPT, а сейчас эта доля увеличилась до 53%.

С мая в сфере больших моделей разразилась ценовая война, и API упали до «капустных цен». Говоря о ценовой войне на крупные модели, Янь Цзюньцзе отметил, что из-за ценовой войны многие традиционные компании стали готовы использовать крупные модели, «объективно говоря, это значительно увеличило количество вызовов моделей».

В то же время это также способствует улучшению характеристик модели. Большие модели Китая также стали конкурентоспособными в Юго-Восточной Азии и других зарубежных странах. «Среди отечественных моделей существует такая жесткая конкуренция, что мы должны двигаться вперед. По крайней мере, в неанглоязычных странах мы можем достичь уровня, сопоставимого с GPT». Ян Цзюньцзе сказал, что конкуренция неизбежна. Мы должны стремиться сделать все возможное. Оптимистичная сторона показывает два положительных изменения: во-первых, использование крупных отечественных моделей значительно растет, а во-вторых, китайские модели действительно становятся все более конкурентоспособными за рубежом.

Янь Цзюньцзе сказал, что большинство компаний считали большие модели дорогими, но позже многие люди подумали, что большие модели дешевы и их можно с уверенностью использовать. В конце концов, я был удивлен, обнаружив, что многие традиционные компании очень охотно используют большие модели. Они думают, что стоимость в любом случае низкая, и не имеет значения, если они допустят ошибку. Они могут просто позвонить еще раз. Объективно говоря, это значительно увеличило количество вызовов моделей, тем самым способствуя улучшению работы модели. По крайней мере, на данный момент на неанглийских языках уровень отечественных больших моделей сопоставим с GPT. Таким образом, с оптимистической точки зрения, использование крупных отечественных моделей действительно значительно растет, а крупные китайские модели искусственного интеллекта действительно становятся все более и более конкурентоспособными за рубежом.

Говоря о возможности прямой конкуренции с крупными интернет-компаниями, Ян Цзюньцзе сказал, что он может бесконечно расширять возможности того, что может стать сильнее. лучше сотрудничать с пользователями Create.