La última tecnología negra de Google: la IA te ayuda a "volver a grabar" vídeos grabados, con efectos de postproducción de nivel profesional al alcance de tu mano

Autor：Eve Cole Fecha de actualización：2024-11-27 17:12:02

¡El editor de Downcodes lo llevará a comprender la tecnología Google ReCapture y cómo esta tecnología disruptiva cambiará la edición de video! ReCapture permite a los usuarios comunes realizar fácilmente ajustes de movimiento de la cámara a nivel profesional, rediseñar el lenguaje de la lente de video y aportar cambios revolucionarios a la postproducción de video. Esta tecnología ya no se basa en los métodos tradicionales de representación intermedia 4D, sino que utiliza inteligentemente el conocimiento del movimiento de los modelos de video generativo para transformar la edición de video en un proceso de conversión de video a video, simplificando enormemente el proceso de operación y conservando las características del video. y calidad de imagen.

La última tecnología ReCapture lanzada por el equipo de investigación de Google está subvirtiendo el método tradicional de edición de vídeo. Esta innovación permite a los usuarios comunes implementar fácilmente ajustes de movimiento de la cámara a nivel profesional y rediseñar el lenguaje de la lente para videos ya capturados.

En la postproducción de vídeo tradicional, cambiar el ángulo de la cámara de un vídeo capturado siempre ha sido un problema técnico. Cuando las soluciones existentes manejan diferentes tipos de contenido de vídeo, a menudo resulta difícil mantener complejos efectos de movimiento de la cámara y detalles de la imagen al mismo tiempo. ReCapture adopta un enfoque diferente y no utiliza el método tradicional de representación intermedia 4D, sino que utiliza inteligentemente el conocimiento de movimiento almacenado en el modelo de video generativo y redefine la tarea como un proceso de conversión de video a video a través de Stable Video Diffusion.

El sistema utiliza un flujo de trabajo de dos etapas. La primera etapa genera el vídeo ancla, que es la versión de salida inicial con la nueva posición de la cámara. Esta etapa se puede lograr creando videos de múltiples ángulos a través de modelos de difusión como CAT3D, o mediante estimación de profundidad cuadro por cuadro y representación de nubes de puntos. Si bien esta versión puede tener algunas inconsistencias en el tiempo y fallas visuales, sentó las bases para la Fase Dos.

La segunda etapa aplica un ajuste fino del video enmascarado, aprovechando un modelo de video generativo entrenado en metraje existente para crear efectos de movimiento realistas y cambios de tiempo. El sistema introduce una capa temporal LoRA (adaptación de rango bajo) para optimizar el modelo de modo que pueda comprender y replicar las características dinámicas específicas de los videos ancla sin volver a entrenar todo el modelo. Al mismo tiempo, la capa espacial LoRA garantiza que los detalles y el contenido de la imagen sean consistentes con el nuevo movimiento de la cámara. Esto permite que el modelo de video generativo complete operaciones como hacer zoom, desplazarse e inclinarse mientras mantiene el movimiento característico del video original.

Aunque ReCapture ha logrado avances importantes en el procesamiento de vídeo fácil de usar, todavía se encuentra en la etapa de investigación y todavía está lejos de su aplicación comercial. Vale la pena señalar que, aunque Google tiene muchos proyectos de video AI, aún no los ha lanzado al mercado. Entre ellos, el proyecto Veo puede ser el más cercano al uso comercial. De manera similar, el modelo Movie-Gen lanzado recientemente por Meta y Sora de OpenAI lanzado a principios de año aún no se han comercializado. Actualmente, el mercado de la IA de vídeo está liderado principalmente por nuevas empresas como Runway, que lanzó su último modelo Gen-3Alpha el verano pasado.

El surgimiento de la tecnología ReCapture presagia la dirección de desarrollo futuro en el campo de la edición de video. Aunque todavía se encuentra en la etapa de investigación, sus poderosas funciones y métodos de operación convenientes sin duda brindarán más posibilidades a la creación de videos. Esperamos con interés la madurez temprana y la aplicación comercial de esta tecnología en el futuro, brindando una experiencia de edición de video más conveniente y eficiente a la mayoría de los usuarios.