В ноябре Alibaba выпустила видеомодель генерации изображений I2VGen-XL, и ее код и модель наконец-то официально открыты с открытым исходным кодом. В модели используется двухэтапный метод обработки. Первый этап обеспечивает семантическую согласованность, а второй этап улучшает детализацию и разрешение видео за счет интеграции короткого текста. Благодаря массивному обучению данных I2VGen-XL продемонстрировал более высокую семантическую точность, непрерывность деталей и ясность в области генерации видео, что привело к новым прорывам в области генерации изображений.
Alibaba анонсировала видеомодель генерации изображений с открытым исходным кодом I2VGen-XL в статье, опубликованной в ноябре, и теперь наконец опубликовала конкретный код и модель. Модель обрабатывается в два этапа: сначала базовый этап для обеспечения семантической согласованности, а затем этап оптимизации для улучшения детализации видео и улучшения разрешения за счет интеграции короткого текста. Исследовательская группа собрала большой объем данных для оптимизации, чтобы модель I2VGen-XL имела более высокую семантическую точность, непрерывность детализации и ясность при создании видео. Подробный код можно найти на GitHub.Открытый исходный код модели I2VGen-XL предоставляет ценные ресурсы для исследователей и разработчиков и способствует дальнейшему развитию видеотехнологий генерации изображений. Его эффективный поток обработки и отличные эффекты генерации указывают на огромный потенциал видеотехнологий, генерируемых искусственным интеллектом, в будущем. Ожидайте появления новых инновационных приложений на базе I2VGen-XL.