Zhiyuan запускает OmniGen, универсальную модель визуальной генерации, объединяющую множество возможностей

Автор：Eve Cole Время обновления：2024-12-04 10:32:01

Пекинский научно-исследовательский институт искусственного интеллекта Чжиюань (BAAI) запустил новую универсальную модель визуальной генерации OmniGen, которая совершила значительный прорыв в области генерации изображений. Благодаря своему единству, простоте и возможностям передачи знаний между задачами OmniGen может эффективно решать различные задачи по созданию изображений в рамках единой структуры, включая генерацию изображений, редактирование изображений, генерацию по темам и генерацию визуальных условий. удаление изображений Классические задачи компьютерного зрения, такие как обнаружение шума и краев. Редактор Downcodes подробно расскажет о мощных функциях и удобном использовании OmniGen.

Пекинский научно-исследовательский институт искусственного интеллекта Чжиюань (BAAI) недавно объявил о запуске новой универсальной модели визуальной генерации OmniGen, что ознаменовало крупный прорыв в области генерации изображений. Модель OmniGen известна своим единством, простотой и возможностями передачи знаний между задачами. Она может решать различные задачи по созданию изображений в рамках единой структуры, включая генерацию изображений, редактирование изображений, генерацию на основе тем и генерацию визуального состояния. Кроме того, OmniGen также способен решать некоторые классические задачи компьютерного зрения, такие как шумоподавление изображения и обнаружение краев, преобразуя эти задачи в задачи генерации изображений.

Основное преимущество OmniGen заключается в его упрощенной архитектуре и удобном для пользователя использовании. Пользователи могут выполнять сложные задачи по созданию изображений с помощью простых инструкций без дополнительных плагинов или сложных этапов обработки. Этот унифицированный формат обучения позволяет OmniGen эффективно передавать знания при выполнении различных задач, справляться с ранее неизвестными задачами и областями и демонстрировать новые возможности.

Возможности модели OmniGen не ограничиваются вышеперечисленным, но также включают базовые возможности обработки изображений, такие как шумоподавление и извлечение краев. Веса и код модели были сделаны с открытым исходным кодом, чтобы пользователи могли самостоятельно изучить больше возможностей OmniGen и выполнить точную настройку по мере необходимости. Исследовательский институт Чжиюань создал крупномасштабный и разнообразный унифицированный набор данных для генерации изображений X2I, содержащий около 100 миллионов изображений, исходный код которого в будущем будет открыт с открытым исходным кодом, чтобы способствовать развитию области общей генерации изображений.

Ссылки по теме:

Документ: https://arxiv.org/pdf/2409.11340.

Код: https://github.com/VectorSpaceLab/OmniGen

Демо: https://huggingface.co/spaces/Shitao/OmniGen

В целом, появление модели OmniGen открыло новые возможности в области генерации изображений, а ее мощные функции и удобное управление, несомненно, будут способствовать дальнейшему развитию в этой области. Веса и коды моделей с открытым исходным кодом также предоставляют ценные ресурсы для разработчиков. Мы с нетерпением ждем, когда OmniGen принесет инновации и прорывы в большее количество сценариев применения в будущем. Редактор Downcodes продолжит обращать внимание на последние достижения этой модели и предоставлять вам дополнительные отчеты по этой теме.