Компания Beijing TuSimple Future Technology Co., Ltd. официально выпустила свою первую большую модель TuSimple Video — «Ruyi» 17 декабря 2024 года и открыла исходный код версии Ruyi-Mini-7B. Эта модель специально разработана для видеокарт потребительского уровня и обеспечивает удобство развертывания и использования. Она хорошо работает с точки зрения межкадровой согласованности и плавности движения, а также представляет собой мощный творческий инструмент для создателей анимации и игр. Он поддерживает создание видео с различным разрешением и продолжительностью и имеет множество функций управления, которые могут эффективно сократить цикл и стоимость создания контента. Это знаменует собой важный шаг для TuSimple в области применения технологий искусственного интеллекта, а также дает новый творческий опыт энтузиастам ACG.
Пекинская компания TuSimple Future Technology Co., Ltd. официально выпустила свою первую большую модель TuSimple Video — «Ruyi» 17 декабря 2024 года и сделала версию Ruyi-Mini-7B с открытым исходным кодом, чтобы пользователи могли загружать и использовать ее с платформы Huggingface. . TuSimple была основана в 2015 году со штаб-квартирой в Сан-Диего, Калифорния, США. Компания специализируется на применении технологий искусственного интеллекта в различных отраслях, включая анимационные игры и транспортную отрасль.
Большая модель Ruyi предназначена для работы на видеокартах потребительского уровня и содержит подробные инструкции по развертыванию и рабочий процесс ComfyUI, позволяющий пользователям быстро приступить к работе. Благодаря превосходным характеристикам покадровой согласованности, плавности движения, цветопередаче и композиции эта модель предоставляет новые возможности для визуального повествования и глубокого обучения анимации и игровых сцен, что делает ее идеальным творческим партнером для энтузиастов ACG.
Модель Ruyi поддерживает генерацию с несколькими разрешениями и продолжительностью, а также поддерживает разрешения от 384×384 до 1024×1024, любое соотношение сторон и генерацию видео до 120 кадров/5 секунд. Он также поддерживает создание элементов управления первым кадром, первым и последним кадром, управление амплитудой движения и управление пятью объективами. Ruyi основан на архитектуре DiT и состоит из модуля Casual VAE и Diffusion Transformer. Общий размер параметров составляет около 7,1 Мб, для обучения он использует около 200 млн видеоклипов.
Хотя Жуйи добился значительного прогресса в технологиях, все еще есть некоторые дефекты, такие как деформация рук, разрушение деталей лица при работе с несколькими людьми и неконтролируемые переходы. TuSimple усердно работает над их улучшением и исправлением в будущих обновлениях.
Заглядывая в будущее, TuSimple планирует продолжить изучение потребностей сцен, добиться прорыва в непосредственном создании CUT и предоставить две версии в следующем выпуске, чтобы удовлетворить потребности разных авторов. Компания стремится использовать большие модели, чтобы сократить цикл разработки и стоимость анимации и игрового контента. Большие модели Ruyi уже могут генерировать контент в течение 5 секунд после ввода ключевых кадров или ввести два ключевых кадра, и модель будет генерировать промежуточный переходный контент. сокращение цикла разработки.
Ссылка на «Обнимающее лицо»:
https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
В целом, выпуск большой модели Руи с открытым исходным кодом открыл новые возможности для анимации и создания игр. Несмотря на некоторые недостатки, потенциал ее будущего развития огромен. Стоит с нетерпением ждать дальнейшей оптимизации и улучшения модели TuSimple. последующие версии.