Zhiyuan lanza OmniGen, un modelo de generación visual todo en uno que integra múltiples capacidades

Autor：Eve Cole Fecha de actualización：2024-12-04 10:32:01

El Instituto de Investigación de Inteligencia Artificial Zhiyuan de Beijing (BAAI) ha lanzado un nuevo modelo integral de generación visual OmniGen, que ha logrado un avance significativo en el campo de la generación de imágenes. Con su unidad, simplicidad y capacidades de transferencia de conocimiento entre tareas, OmniGen puede manejar de manera eficiente una variedad de tareas de generación de imágenes dentro de un solo marco, incluida la generación de imágenes, la edición de imágenes, la generación basada en temas y la generación de condiciones visuales. Eliminación de imágenes. Tareas clásicas de visión por computadora, como detección de ruido y bordes. El editor de Downcodes explicará en detalle las potentes funciones y el cómodo funcionamiento de OmniGen.

El Instituto de Investigación de Inteligencia Artificial Zhiyuan de Beijing (BAAI) anunció recientemente el lanzamiento de un nuevo modelo integral de generación visual OmniGen, que marca un gran avance en el campo de la generación de imágenes. El modelo OmniGen es conocido por su unidad, simplicidad y capacidades de transferencia de conocimiento entre tareas. Puede manejar una variedad de tareas de generación de imágenes dentro de un solo marco, incluida la generación de imágenes, la edición de imágenes, la generación basada en temas y la generación de condiciones visuales. Además, OmniGen también puede manejar algunas tareas clásicas de visión por computadora, como la eliminación de ruido de imágenes y la detección de bordes, al convertir estas tareas en tareas de generación de imágenes.

La principal ventaja de OmniGen radica en su arquitectura simplificada y su operación fácil de usar. Los usuarios pueden completar tareas complejas de generación de imágenes a través de instrucciones simples sin complementos adicionales ni pasos de procesamiento complejos. Este formato unificado de aprendizaje permite a OmniGen transferir conocimientos de manera efectiva entre diferentes tareas, hacer frente a tareas y dominios invisibles y demostrar capacidades novedosas.

Las capacidades del modelo OmniGen no se limitan a lo anterior, sino que también incluyen capacidades básicas de procesamiento de imágenes, como eliminación de ruido y extracción de bordes. Los pesos y el código del modelo se han hecho de código abierto para que los usuarios puedan explorar más capacidades de OmniGen por su cuenta y ajustarlas según sea necesario. El Instituto de Investigación Zhiyuan ha construido un conjunto de datos de generación de imágenes unificadas X2I, diverso y a gran escala, que contiene aproximadamente 100 millones de imágenes, que será de código abierto en el futuro para promover el desarrollo del campo de la generación de imágenes generales.

Enlaces relacionados:

Documento: https://arxiv.org/pdf/2409.11340

Código: https://github.com/VectorSpaceLab/OmniGen

Demostración: https://huggingface.co/spaces/Shitao/OmniGen

Con todo, la aparición del modelo OmniGen ha traído nuevas posibilidades al campo de la generación de imágenes, y sus poderosas funciones y operaciones convenientes seguramente promoverán un mayor desarrollo en este campo. Los pesos y códigos de los modelos de código abierto también proporcionan recursos valiosos para los desarrolladores. Esperamos que OmniGen aporte innovación y avances a más escenarios de aplicaciones en el futuro. El editor de Downcodes seguirá atento a los últimos avances de este modelo y le brindará más informes relacionados.