El equipo de investigación de Meta Reality Labs anunció recientemente el lanzamiento de un modelo generativo innovador llamado "Pippo", que puede generar videos intensivos de facturación a una resolución de hasta 1K desde una sola foto normal. Este avance tecnológico no solo muestra los últimos avances en el campo de la visión por computadora, sino que también aporta nuevas posibilidades a la tecnología de generación de imágenes.
La innovación central del modelo Pippo radica en el diseño de su convertidor de difusión múltiple. A diferencia de los modelos generativos tradicionales, Pippo no necesita confiar en datos de entrada adicionales, como los modelos de parámetros de ajuste o los parámetros de la cámara. Los usuarios solo necesitan proporcionar una foto, y el sistema puede generar automáticamente los efectos de video de visión múltiple, presentando así una imagen de caracteres más vívida y tridimensional.
Para la comodidad de los desarrolladores, Pippo se lanza como una versión solo de código esta vez, sin pesos previos al entrenamiento. El equipo de investigación proporcionó modelos completos, archivos de configuración, códigos de inferencia y códigos de capacitación de muestra para el conjunto de datos AVA-256. Los desarrolladores pueden iniciar rápidamente la capacitación de modelos y el desarrollo de aplicaciones a través de una simple clonación de comandos y configuración de bases de código.
Los planes futuros para el Proyecto Pippo incluyen una mayor recopilación y optimización del código y el lanzamiento de scripts de inferencia para modelos previamente capacitados. Estas mejoras mejorarán significativamente la experiencia del usuario y promoverán la popularidad generalizada de esta tecnología en aplicaciones prácticas.
Enlace del proyecto: https://github.com/facebookresearch/pippo
Puntos clave:
El modelo Pippo puede generar videos de alta resolución de una sola foto normal sin entrada adicional.
El código solo se publica y no incluye los pesos previos al entrenamiento.
El equipo planea lanzar más funciones y mejoras en el futuro para mejorar la experiencia del usuario.