ByteDance y Kuaishou Video AI, enfrentamiento cara a cara: hay diferencias en la comprensión, la captura y la imaginación

Autor：Eve Cole Fecha de actualización：2025-02-09 23:48:02

ByteDance y Kuaishou, los dos gigantes de los vídeos cortos, se enfrentan cara a cara en el campo de la IA.

El 8 de noviembre, Dream AI, una plataforma de contenido de inteligencia artificial propiedad de ByteDance, anunció que Seaweed, un modelo de generación de video desarrollado por ByteDance, está oficialmente abierto a los usuarios de la plataforma. Según ByteDance, el modelo de generación de video Beanbag Seaweed que está abierto para su uso esta vez es la versión estándar de este modelo. Solo toma 60 segundos generar un video AI de alta calidad de 5 segundos, que es de 3 a 5 minutos por delante. Todos los estándares de la industria nacional. Requiere tiempo de generación.

Los reporteros de "Daily Economic News" realizaron pruebas reales en la primera y última versión de Jimeng y Keling y descubrieron que después de la iteración, los efectos de generación de video de los dos productos han mejorado en muchos aspectos y en diversos grados en el espacio. el diseño y los detalles de la imagen son más precisos y el ajuste del efecto del contenido generado es más flexible y conveniente; Jimeng tiene ventajas en el tiempo de generación y el estilo del video.

China Visual

Un técnico de modelos grandes dijo a los periodistas que es difícil para los modelos de generación de video lograr diferentes "estilos" de contenido de producción "además de la tecnología, también depende principalmente de la riqueza de las fuentes de datos".

Complete múltiples iteraciones en un corto período de tiempo.

Con la apertura del modelo de generación de video de desarrollo propio de ByteDance, Seaweed, la pareja más interesante en la competencia de modelos de generación de video nacional: Ji Meng y Ke Ling finalmente compitieron oficialmente.

Ambos tienen el "plan de creación de sueños de IA" para comprender el mundo físico y amplificar la imaginación tanto como sea posible mientras derivan la "realidad". Pero para ellos mismos, Ji Meng y Ke Ling también asumen la responsabilidad de las perspectivas de desarrollo de ByteDance y Kuaishou.

De hecho, tanto Jimeng como Keling completaron varias iteraciones en menos de un año. Jimeng comenzó las pruebas internas de la función de generación de video a fines de marzo. Medio año después, ByteDance lanzó dos modelos de generación de video de la familia de modelos Doubao, Seaweed y Pixeldance, e invitó a realizar pruebas a pequeña escala a través de Jimeng AI y Volcano Engine. Seaweed está abierto a los usuarios de la plataforma Abierto oficialmente.

Pan Helin, miembro del Comité de Expertos en Economía de la Información y las Comunicaciones del Ministerio de Industria y Tecnología de la Información, dijo al periodista del "Daily Economic News" que se ha mejorado la velocidad de generación del nuevo modelo utilizado por Jimeng, lo que brinda a los usuarios una mejor "Jimeng AI se encuentra actualmente en el campo de la generación nacional y sigue siendo relativamente líder".

Keling se convirtió en un éxito de taquilla después de su "nacimiento" en junio. Desde su lanzamiento, ha experimentado más de diez actualizaciones, incluido el lanzamiento de la función de video Tusheng y el lanzamiento del modelo 1.5. Hasta el momento, Keling tiene más de 3,6 millones de usuarios, ha generado un total de 37 millones de vídeos y lanzará oficialmente una aplicación (software de aplicación) independiente en un futuro próximo.

El reportero de "Daily Economic News" seleccionó cinco palabras de aviso en video anunciadas oficialmente por OpenAI (dama en las calles de Tokio, astronauta, costa desde la perspectiva de un dron, pequeño monstruo animado en 3D, joven leyendo en la nube) y las probó por separado. La primera y la última versión de Menghe Keling comparan verticalmente los efectos de vídeo de los dos modelos de generación de vídeo.

Después de comparar los efectos de video producidos por la versión original de Jimeng y la última versión, el reportero encontró que hay dos partes de las actualizaciones de Jimeng que son más obvias: una es que en la interpretación de "personas y cosas" dinámicas, la captura y coherencia de Los movimientos se han mejorado significativamente; la otra es que la presentación diferenciada de estilos de imagen también ha logrado grandes avances.

Tomando como ejemplo "La dama de las calles de Tokio", los movimientos de los personajes creados por Yume de primera generación eran rígidos, especialmente en la captura de los movimientos de piernas y pies, y el efecto general era borroso y distorsionado. La nueva versión iterada de Ji Meng tiene movimientos de personajes naturales y suaves, y el procesamiento detallado de la dinámica del pie es más claro y más acorde con la lógica del mundo real.

Hay una diferencia obvia entre un sueño y un espíritu.

Después de la iteración de los dos modelos, los efectos generados son más estables, la calidad de la imagen es mejor y la suavidad y el procesamiento de detalles son más capaces de resistir el escrutinio. Sin embargo, todavía tienen diferencias obvias en la comprensión semántica, la captura y amplificación de palabras clave y el equilibrio entre imaginación creativa y relevancia creativa.

Comparación horizontal, comparando la última versión de Jimeng y el modelo 1.5 Keling, para comparar la presentación de 5 palabras clave en video de Sora. La comprensión de la semántica y la captura de palabras clave hacen que la presentación en vídeo de Jimeng y Keling sea diferente.

En el video "La costa desde la perspectiva de un dron", Ji Meng desdibujó relativamente la "isla con un faro" en la palabra inicial, y ya fuera Ke Ling o Sora, el foco de esta escena era "Isla". En la descripción de "Coast Highway", el escenario onírico no se ajusta a la lógica del mundo real.

En el efecto de video de "Astronauta", Ji Meng no describió la "aventura" en la descripción. Después de la regeneración, el astronauta sosteniendo un café y conduciendo una motocicleta también ignoró el escenario de "aventura". Ke Ling enfatiza la "aventura" a través de las expresiones de los personajes y los movimientos de la cámara. Sin embargo, tanto Ji Meng como Ke Ling ignoraron relativamente la configuración del "avance de la película". En contraste, el video de "Spaceman" de Sora tiene una sensación más cinematográfica.

En la generación de videos del "pequeño monstruo animado en 3D", el escenario del pequeño monstruo de Ji Meng es casi el mismo que el del personaje "Sally" en la película animada "Monsters, Inc". La descripción del pequeño monstruo en las palabras clave, es decir, la presentación del sueño, también es relativamente inexacta, como la implementación del escenario de "pelo corto". Además, en cuanto a la presentación del estilo artístico, las palabras clave enfatizan "iluminación y textura", es decir, la ejecución de los sueños es más débil que la de Ke Ling.

En el vídeo "Lady on the Streets of Tokyo", la actuación de Ji Meng en la presentación de interacciones complejas entre múltiples sujetos es pobre en comparación con la de Ke Ling. Tanto la "dama" que es el tema de la imagen como la descripción del espacio son relativamente precisas, pero los peatones en la imagen generalmente están borrosos y los peatones en el primer plano están distorsionados.

Sin embargo, Jimeng AI reveló oficialmente que las versiones Pro de los modelos de generación de video Seaweed y Pixeldance estarán disponibles para su uso en un futuro próximo. El modelo de la versión Pro optimizará la interacción de múltiples sujetos y la coherencia de las acciones de múltiples disparos, al tiempo que superará problemas como la consistencia del cambio de múltiples disparos.

En términos de función y experiencia, después de varias rondas de iteraciones, Keling tiene ajustes en los parámetros de "imaginación creativa y relevancia creativa" al generar videos, por lo que se pueden realizar ajustes de equilibrio. Ke Ling también puede configurar contenido que no desea presentar, como desenfoque, collage, transformación, animación, etc. La operación de generación es más flexible y el efecto se puede ajustar.

Después de la prueba, el tiempo de generación del video del sueño es más corto. El tiempo de generación del video de las 5 palabras clave de Sora no excede el medio minuto cada una. Sin embargo, se necesitan más de 10 minutos para generar un vídeo de alta calidad de 10 segundos con el modelo 1.5.

Cabe señalar que los videos mencionados anteriormente generados por Jimeng y Keling fueron probados y generados por reporteros. Las diferentes versiones y detalles de descripción causarán diferencias en los efectos de generación del video.

Una batalla en el campo de la generación de vídeos con IA

Para los dos gigantes de los vídeos cortos, ByteDance y Kuaishou, sus oponentes en el campo de la generación de vídeos con IA son mucho más que el uno del otro.

Por ejemplo, el 8 de noviembre, Zhipu, uno de los “Seis pequeños dragones de la IA”, actualizó su herramienta de generación de vídeo Qingying. El Qingying actualizado admite la generación de videos a partir de imágenes de cualquier proporción y tiene capacidades de generación multicanal. El mismo comando o imagen puede generar 4 videos a la vez. Además, Qingying puede generar efectos de sonido que coincidan con la imagen. Esta función de efectos de sonido se lanzará en versión beta pública este mes.

Anteriormente, el 31 de agosto, MiniMax lanzó su primer modelo de tecnología de generación de vídeo de alta definición con IA, abab-video-1, que recibió informes frecuentes durante el primer mes de su lanzamiento. Según la cuenta pública oficial de MiniMax, en el primer mes después del lanzamiento del modelo de video en Conch AI, el número de visitas a la versión web de Conch AI aumentó en más del 800%. Los usuarios cubren más de 180 países y regiones de todo el mundo. El producto ocupó el primer lugar en la lista de productos de IA (web) en septiembre. Ocupa el primer lugar en la lista de tasas de crecimiento global y en la lista de tasas de crecimiento nacional.

Wang Peng, investigador asociado del Instituto de Gestión de la Academia de Ciencias Sociales de Beijing, señaló al reportero del "Daily Economic News" que los productos de video de IA en el país y en el extranjero se encuentran actualmente en una etapa de rápido desarrollo, y la tecnología extranjera gigantes como Meta y Google se están implementando activamente en el campo del video de IA a nivel nacional, Kuaishou Keling, Jimeng AI y otros productos también se actualizan constantemente para mejorar la experiencia del usuario y las capacidades de comercialización.

En términos de posibilidades de comercialización, un informe de investigación publicado por Soochow Securities en agosto de este año mencionó que bajo el supuesto neutral de una tasa de penetración de IA del 15%, el espacio potencial para la industria de generación de videos de IA de China es de 317,8 mil millones de yuanes; Los costes de producción de películas, largometrajes dramáticos, dibujos animados y obras cortas se reducirán en más del 95% en comparación con el modelo tradicional.

El enorme tamaño potencial del mercado y el "superpoder" de reducir costes y aumentar la eficiencia también se pueden vislumbrar en los datos de uso de Keling.

En la "Conferencia de Computación de China 2024" celebrada en octubre, Zhang Di, vicepresidente de Kuaishou y jefe del equipo de modelos grandes, reveló que desde su lanzamiento en junio de este año, Kuaishou Keling AI tiene más de 3,6 millones de usuarios y ha generado un un total de 37 millones de vídeos y más de 100 millones de imágenes.

Pan Helin dijo en una entrevista con un periodista de "Daily Economic News" que Keling cuenta con el respaldo de Kuaishou y tiene soporte de tráfico, por lo que el proceso de comercialización es muy rápido. "Los productos de video de IA aún necesitan estar respaldados por la plataforma de Internet. Solo con. tráfico pueden tener potencial comercial." ".

Del mismo modo, ByteDance también ha puesto la comercialización de modelos de vídeo al frente de su lista de tareas. Cuando se lanzaron dos modelos de generación de video en septiembre de este año, Tan Dai, presidente de Volcano Engine, declaró públicamente que el nuevo modelo de generación de video tipo puf "ha estado considerando la comercialización desde su lanzamiento. Las áreas de uso incluyen marketing de comercio electrónico y animación". educación y turismo cultural urbano y microguiones.

"El vídeo con IA mostrará diferentes potenciales de comercialización en el lado B y en el lado C". Wang Peng cree que para el lado B, el vídeo con IA puede proporcionar a las empresas soluciones de producción y distribución de vídeo más eficientes y de bajo costo en el lado C; Por el lado, el video con IA puede satisfacer las necesidades de los usuarios de contenido de video personalizado y de alta calidad, y también se puede combinar con el comercio electrónico, la publicidad y otras industrias para lograr un marketing y una monetización más precisos.