Desde el nacimiento de Sora, que marcó el comienzo de una nueva era de videos con IA, los principales actores nacionales y extranjeros se han unido sucesivamente a la competencia de videos con IA. Pero a medida que entramos en esta nueva era de vídeos más interactivos e inmersivos, ¿cómo abordamos los desafíos de costo, calidad y rendimiento?
El 15 de octubre, Volcano Engine e Intel lanzaron conjuntamente una solución de preprocesamiento de vídeo de entrenamiento de modelos grandes en la Video Cloud Technology Conference. Un reportero del "Daily Economic News" supo en la rueda de prensa que esta solución técnica se ha aplicado al modelo de generación de vídeo tipo puf.
En la conferencia de prensa, Li Hang, director de Bytedance Research, presentó que el modelo de generación de video de Doubao, PixelDance, adoptó la solución de preprocesamiento de video de entrenamiento de modelos grandes de Volcano Engine durante el proceso de entrenamiento, aprovechando al máximo una gran cantidad de recursos de marea y brindando un fuerte soporte. para el entrenamiento de modelos.
Además, Wang Yue, jefe de arquitectura de video de Douyin Group, reveló los últimos avances del chip códec de video desarrollado por Byte: verificado por la práctica interna de Douyin Group, este chip ahorra más del 95% del costo con la misma compresión de video. eficiencia.
"En primer lugar, el conjunto de datos de entrenamiento de video a gran escala ha provocado un aumento en los costos de computación y procesamiento". Wang Yue señaló que los grandes fabricantes de modelos enfrentan muchos desafíos en el proceso de preprocesamiento. Los datos de muestra son desiguales y luego hay muchos enlaces de procesamiento. El proyecto es complejo y finalmente enfrenta la programación y la implementación de múltiples recursos informáticos heterogéneos, como GPU, CPU y ARM ".
Marco de procesamiento multimedia de desarrollo propio
En el Volcano Engine AI Innovation Tour el 24 de septiembre, se lanzaron juntos dos grandes modelos de generación de videos tipo puf, PixelDance y Seaweed, que atrajeron la atención de personas dentro y fuera de la industria. De hecho, los esfuerzos de ByteDance en modelos de generación de vídeo no terminan ahí.
El 15 de octubre, Volcano Engine lanzó una solución de preprocesamiento de video de entrenamiento de modelos grandes, dedicada a resolver desafíos técnicos en costo, calidad y rendimiento del entrenamiento de modelos grandes por video.
Según los informes, el preprocesamiento de videos de capacitación es un requisito previo importante para garantizar el efecto del entrenamiento de modelos grandes. El proceso de preprocesamiento puede unificar el formato de datos del video, mejorar la calidad de los datos, estandarizar los datos, reducir la cantidad de datos y procesar información de anotaciones, de modo que el modelo pueda aprender las características y el conocimiento del video de manera más eficiente y mejorar la capacitación. efecto y eficiencia.
En la capacitación de modelos de generación de video, el costo de la potencia informática es sin duda el desafío número uno.
Un ingeniero de algoritmos de un modelo de generación de video nacional dijo en una entrevista con un periodista de "Daily Economic News" que con datos de alta calidad, los modelos de video serán más difíciles de entrenar que los modelos de lenguaje grandes y requerirán más potencia informática "en la actualidad. "Los modelos de video de código abierto conocidos no son particularmente grandes, principalmente porque muchos modelos de video se encuentran actualmente en una etapa en la que no saben cómo usar los datos y no hay muchos datos de alta calidad (para capacitación)".
La investigación del informático Matthias Plappert también muestra que el entrenamiento de Sora requiere una enorme potencia informática. En el proceso de entrenamiento, se necesitan alrededor de 1 mes para entrenar entre 4.200 y 10.500 Nvidia H100 cuando se genera el modelo y llega a la etapa de inferencia. El costo aumentará rápidamente más allá de la sesión de capacitación.
Para resolver el problema de la reducción de costos, Volcano Engine confía en la CPU de Intel y otros recursos para confiar en su solución de preprocesamiento de video de entrenamiento de modelos grandes en su marco de procesamiento multimedia de desarrollo propio. Wang Yue dijo que la solución también se ha optimizado en términos de algoritmos e ingeniería, y puede realizar un preprocesamiento de alta calidad de datos de video masivos, lograr una colaboración eficiente de los enlaces de procesamiento en poco tiempo y mejorar la eficiencia del entrenamiento del modelo.
Respecto a la aplicación de esta solución, Li Hang reveló en la rueda de prensa que el modelo de generación de vídeo tipo puf PixelDance ha adoptado esta solución durante el proceso de formación. Al mismo tiempo, la solución bajo demanda proporcionada por el equipo de Volcano Engine Video Cloud también proporciona un servicio integral para todo el ciclo de vida de los videos producidos por PixelDance, desde la edición, carga, transcodificación, distribución y reproducción, asegurando la Aplicación comercial del modelo.
Además, en esta conferencia, Volcano Engine también lanzó una solución de transmisión en vivo simultánea en varios idiomas, una solución de generación y comprensión de video multimodal, una solución de interacción conversacional en tiempo real de IA y una solución de reconstrucción de escenas grandes y AIG3D. Final de producción del video, desde el extremo interactivo hasta el final del consumidor, todo el enlace integra capacidades de IA.
¿Hacia dónde se dirige el vídeo de IA?
La IA está remodelando la forma en que las personas producen, difunden y reciben información en todos los aspectos. Entre ellas, las nuevas tecnologías de vídeo emergentes han llevado a personas del mundo de los datos fluidos y de alta definición al mundo de la IA de experiencias más inteligentes e interactivas.
En julio de este año, SenseTime lanzó Vimi, el primer modelo de generación de video de caracteres grandes controlables para usuarios finales de C; en agosto, MiniMax lanzó el modelo de generación de video video-1, Keling AI completó su novena iteración y lanzó "KeLing 1.5; modelo ", Alibaba Cloud lanzó un nuevo modelo de generación de video en la Conferencia de Yunqi, y Byte también lanzó 2 modelos de generación de video. El nacimiento y la iteración de los productos de vídeo con IA llevan casi meses.
Con respecto a la "explosión" de los productos de video de IA, Wang Peng, investigador asociado de la Academia de Ciencias Sociales de Beijing, dijo en una entrevista con un periodista del "Daily Economic News" que los productos de video de IA nacionales se encuentran en una etapa de rápido desarrollo y Iteración continua, principalmente debido a la fuerte demanda del mercado y la amplia gama de escenarios de aplicación y diversos modelos de comercialización.
En la actualidad, los productos de video de IA en el mercado se implementan principalmente en los campos del cine y la televisión, el marketing de comercio electrónico y otros campos. Por ejemplo, en julio de este año, Jimeng AI y Bona Pictures cooperaron para lanzar el primer AIGC generativo continuo del país. la serie corta narrativa de ciencia ficción "Sanxingdui: Future Enlightenment" "Record" en septiembre de este año, Kuaishou se asoció con nueve directores conocidos, incluidos Jia Zhangke y Li Shaohong, para lanzar el proyecto de cocreación del director "Keling AI".
Pan Helin, miembro del Comité de Expertos en Economía de la Información y las Comunicaciones del Ministerio de Industria y Tecnología de la Información, señaló al periodista del "Daily Economic News" que algunos productos de vídeo de IA se encuentran ahora en la etapa de introducción y son difíciles de implementar. en el mercado debido a la tecnología o el cumplimiento. "Actualmente, parece que el código abierto (productos de vídeo con IA) es más popular que los de código cerrado porque el coste de la generación de vídeo con IA es alto y los productores de vídeo a menudo carecen de fondos, por lo que utilizan el código abierto. Los algoritmos de IA fuente descargados al terminal pueden producir y generar videos mejor".
En su opinión, los productos de vídeo con IA en esta etapa se enfrentan principalmente a dos obstáculos: la potencia informática y los riesgos de cumplimiento. "Los algoritmos, la potencia informática y los datos requieren que las empresas inviertan más recursos y tiempo; otra dificultad radica en los riesgos de cumplimiento. Hoy en día, se presta cada vez más atención a la privacidad. El cumplimiento es un tema inevitable y los vídeos de IA a veces pueden ser una invasión de la privacidad personal. privacidad”, explicó.
Además, Chen Chen, socio de investigación de Analysys Analysis, también expresó su preocupación por la capacidad de monetización a corto plazo de los grandes modelos de generación de videos en una entrevista con un reportero de "Daily Economic News" debido a los altos costos de inferencia y capacitación de modelos de la gran IA. Modelos, junto con la demanda de herramientas de inteligencia artificial de los usuarios del lado C está relativamente dispersa y su disposición a pagar es insuficiente. La comercialización de modelos de video grandes en el mercado del extremo C aún enfrentará un largo período de cultivo.
La era del vídeo con IA ha llegado, pero cómo reducir costos, aumentar la eficiencia y ganar más mercados también se convertirá en una propuesta importante que enfrentarán las principales empresas de Internet y de tecnología.