MiniMax Yan Junjie: Lo rápido es bueno para modelos grandes, pero a veces lo lento es solo para ser más rápido.

Autor：Eve Cole Fecha de actualización：2024-11-22 18:24:02

Los modelos grandes son un campo donde la velocidad es la clave, pero a veces la lentitud puede ser otro tipo de velocidad.

El 31 de agosto, la empresa nacional de unicornios de IA MiniMax Shanghai Xiyu Technology Co., Ltd. (en lo sucesivo, "MiniMax") lanzó discretamente el modelo de video abab-video-1 en la primera conferencia de desarrolladores "MiniMaxLink Partner Day Enter". la palabra clave puede generar videos de hasta 6 segundos de duración, centrándose en alta resolución y alta velocidad de fotogramas.

En otras palabras, el modelo de video mencionado por MiniMax es similar al modelo de video Vincent de sora de OpenAI. Como fundador y director ejecutivo de MiniMax, Yan Junjie cree que "rápido" es el objetivo principal de investigación y desarrollo de tecnología del modelo grande subyacente de la compañía. Sin embargo, el modelo de video está varios meses por detrás de Sora.

"¿Por qué nuestro lanzamiento se retrasa uno o dos meses? Lo fundamental es que estamos resolviendo un problema técnico más difícil, es decir, cómo entrenar de forma nativa cosas con una potencia informática relativamente alta", dijo Yan Junjie a un periodista de China Business News. capacitación Al desarrollar capacidades de generación de videos, primero es necesario convertir videos en tokens, y estos tokens serán muy largos y la complejidad será mayor. "De hecho, lo que hicimos principalmente en la primera mitad del año fue reducir el. "La complejidad aumenta la relación de compresión, por lo que tiene un retraso de uno o dos meses".

MiniMax dijo que, según la evaluación interna y las puntuaciones de ejecución, el modelo de vídeo de la empresa funciona mejor que el de Runway. Actualmente, Keling ha lanzado un modelo comercial de plan de suscripción de membresía. Entonces, ¿cuál será el modelo de negocio del modelo de vídeo MiniMax? Al respecto, Yan Junjie dijo: "Nuestra estrategia es esperar una semana o dos más. Después de que salgan cosas nuevas y estemos en un estado más satisfactorio, podemos considerar (tomar) algunas (medidas) de comercialización".

También mencionó que debido al rápido progreso de los modelos, aunque los videos generados por IA no pueden reemplazar a los motores de renderizado tradicionales, "al menos brindan la posibilidad" de crear juegos 3A como "Black Myth: Wukong".

Considere la comercialización sólo cuando esté más satisfecho

Aunque no se mencionó la ruta de comercialización del modelo de video, Yan Junjie dijo: "La comercialización de toda la empresa se divide básicamente en dos formas. Una es nuestra plataforma abierta, que ahora cuenta con más de 2.000 clientes, incluidos muchos conocidos. Las empresas de Internet, incluidas las tradicionales, ya tienen la capacidad de que los usuarios utilicen sonido y visión. No todas las empresas pueden hacerlo por sí mismas como Kuaishou. Somos un buen socio, y esta es la parte 2B.

"La segunda es que nuestros propios productos también tienen mecanismos de publicidad, y la publicidad puede monetizarse comercialmente". Yan Junjie cree que en la etapa actual, "lo más importante no es la comercialización, sino hacer que la tecnología esté ampliamente disponible". disponibilidad."

Los videos generados por IA (modelos de video) con tecnología relativamente compleja se han convertido este año en una operación común para que los grandes fabricantes de modelos demuestren su fuerza o "flexionen sus músculos", y OpenAI ha comenzado esto. En febrero de este año, OpenAI lanzó Sora, un modelo de video de gran tamaño, pero aún no se ha lanzado para pruebas públicas. En abril, Shengshu Technology lanzó el modelo de video grande Vidu; en junio, Kuaishou lanzó el modelo de video grande Keling, y en julio se lanzó oficialmente el modelo de video generado por Zhipu AI...

¿Por qué MiniMax quiere crear un modelo de vídeo? Yan Junjie dijo que la esencia es que la mayor parte del contenido que los humanos consumen todos los días son imágenes, textos y videos, y el texto no representa una proporción alta “para tener una cobertura de usuarios muy alta y una mayor profundidad de uso. "Para un gran fabricante de modelos, la única forma es poder generar contenido multimodal en lugar de simplemente generar contenido puramente basado en texto. Este es un juicio muy fundamental".

Mencionó además: "Es solo que primero hicimos texto, luego hicimos sonidos y luego hicimos imágenes hace mucho tiempo. Ahora que la tecnología se ha vuelto más fuerte, también podemos hacer videos. Esta ruta es consistente, debe ser múltiple". -modal. "En el pasado, MiniMax creaba modelos de lenguaje grandes, luego modelos de sonido y luego modelos de imágenes", pero ahora la tecnología se ha vuelto más fuerte y esta ruta también debe ser consistente. modalidad".

Según el ingeniero de algoritmos de IA Zhang Yuxuan, aunque MiniMax no ha anunciado los parámetros específicos y los puntos técnicos del modelo de video, se puede ver en el video de generación del modelo mostrado que el algoritmo de la compañía aún es muy sólido y Keling de Kuaishou es relativamente Ingeniería. mejor.

Yan Junjie dijo a los periodistas: "Ya sea video, texto o sonido, la idea central de investigación y desarrollo del equipo MiniMax no es mejorar el algoritmo en un 5% o un 10%. Lo que es más importante es si se puede "Si se puede mejorar varias veces, entonces hay que hacerlo, no vale la pena hacerlo si solo aumenta un 5%".

Se entiende que el modelo de video de MiniMax es actualmente solo la primera versión y se proporcionará a los usuarios de forma gratuita durante un período de tiempo. Pronto estará disponible una nueva versión. "El trabajo de seguimiento se centrará en los datos y el algoritmo en sí, incluidos los detalles que sean más convenientes de usar. Por ejemplo, actualmente solo se proporcionan videos basados en texto. En el futuro, videos basados en imágenes, videos generados por texto+imagen , así como la capacidad de edición y control, se publicarán uno tras otro", dijo Yan Junjie.

"Black Myth: Wukong" sigue siendo popular y la IA ha creado una nueva jugabilidad en el juego. Recientemente, Google señaló en un documento que ha creado el primer motor de juego en tiempo real totalmente impulsado por IA: GameNGen, que puede generar los gráficos del clásico juego de disparos "Doom" en tiempo real a 20 fotogramas por segundo. Los gráficos del juego se generan en tiempo real en función de las operaciones del jugador y la interacción con entornos complejos, y cada cuadro es predicho por el modelo de difusión.

Entonces, ¿estará muy lejos en el futuro que la IA genere obras maestras de juegos 3A en tiempo real? Yan Junjie dijo que "Black Myth: Wukong" todavía utiliza el método tradicional de modelado y renderizado. Este método ha progresado muy lentamente. La generación de video y la generación de texto pueden no estar disponibles en absoluto. ahora disponible y en rápido desarrollo.

"(La generación de video) es en realidad solo el comienzo, porque este es solo el primer año y el progreso definitivamente será muy rápido. No sé si puede reemplazar el motor de renderizado tradicional, pero al menos puede brindar una posibilidad. Debido a que el progreso es rápido, a largo plazo, cuanto más rápido sea el progreso, mejor", dijo Yan Junjie.

Crecimiento significativo en el uso y mayor competitividad del modelo.

Rápido es una palabra clave mencionada por Yan Junjie muchas veces. "Ya sea que estemos haciendo MoE, atención lineal u otras exploraciones, la esencia es hacer que el mismo modelo de efecto sea más rápido". Yan Junjie dijo que la velocidad es buena, lo que significa que la misma potencia informática puede mejorar. Este es el enfoque de MiniMax. I+D subyacente.

Al mismo tiempo, también señaló que cómo reducir continuamente la tasa de error del modelo, la entrada y salida infinitamente largas y la multimodalidad son tres desafíos que la industria debe seguir resolviendo.

Según la compañía, MiniMax ha experimentado dos cambios tecnológicos subyacentes clave en el pasado, incluido MoE (Mixture of Experts, modelo experto mixto) y Linear Attention (atención lineal). En abril de este año, la compañía desarrolló un modelo de nueva generación basado en MoE+ Linear Attention, que es comparable al GPT-4o.

La información pública muestra que MiniMax es una nueva empresa de inteligencia artificial establecida en diciembre de 2021. Fue fundada por Yan Junjie, ex vicepresidente de SenseTime y ex subdirector del instituto de investigación. Sus miembros provienen principalmente de una conocida IA. empresas como SenseTime.

Tianyancha muestra que en marzo de este año, MiniMax completó una financiación Serie B de 600 millones de dólares, con Alibaba como inversor, y su valoración alcanzó los 2.500 millones de dólares. Anteriormente, en junio de 2023, MiniMax completó una financiación Serie A de más de 250 millones de dólares y el inversor fue Tencent Investment.

Un año después de su fundación, MiniMax desarrolló de forma independiente la arquitectura del modelo básico de tres modos: texto a visual, texto a voz y texto a texto, y construyó una plataforma de razonamiento computacional basada en el modelo básico.

En términos de productos, MiniMax se ocupa de los mercados del lado B y del lado C. Las aplicaciones del lado C incluyen la aplicación de chat de IA Glow, el software social de IA Hoshino, el asistente de conversación de voz de IA Conch WeChat, etc. el lado B proporciona soluciones personalizadas para empresas. La interfaz API permite a las empresas acceder a diversas capacidades del modelo ABAB. Empresas como Huoshan Engine, Kingsoft Office, DingTalk, Zhaopin Recruitment y China Literature están utilizando sus servicios. Los datos oficiales muestran que los modelos de MiniMax interactúan actualmente con usuarios globales más de 3 mil millones de veces al día, procesando más de 3 billones de tokens de texto, 20 millones de imágenes y 70.000 horas de voz. Hace un año, el tiempo de interacción MiniMax era sólo el 3% del ChatGPT, y ahora esta proporción ha aumentado al 53%.

Desde mayo, ha estallado una guerra de precios en el campo de los modelos grandes y las API han caído a "precios de repollo". Al hablar de la guerra de precios de los modelos grandes, Yan Junjie señaló que con la guerra de precios, muchas empresas tradicionales comenzaron a estar dispuestas a utilizar modelos grandes, "objetivamente hablando, ha aumentado considerablemente el número de llamadas de modelos".

Al mismo tiempo, esto también promueve la mejora del rendimiento del modelo desde el exterior. Los modelos grandes de China también se han vuelto competitivos en el sudeste asiático y otros países de ultramar. "La competencia entre los modelos nacionales es tan feroz que debemos avanzar. Al menos en los países que no hablan inglés, podemos alcanzar un nivel comparable al GPT". Yan Junjie dijo que la competencia es inevitable. El lado optimista muestra dos cambios positivos: en primer lugar, el uso de modelos nacionales grandes está creciendo significativamente y, en segundo lugar, los modelos chinos se están volviendo cada vez más competitivos en el extranjero.

Yan Junjie dijo que la mayoría de las empresas pensaban que los modelos grandes eran caros, pero luego mucha gente pensó que los modelos grandes eran baratos y podían usarse con confianza. Al final, me sorprendió descubrir que muchas empresas tradicionales están muy dispuestas a utilizar modelos grandes. Piensan que el costo es bajo de todos modos y no importa si cometen errores. Hablando objetivamente, esto ha aumentado considerablemente el número de llamadas de modelos, promoviendo así que el modelo funcione mejor. Al menos por ahora, en idiomas distintos del inglés, el nivel de los modelos grandes nacionales es comparable al de GPT. Por lo tanto, desde una perspectiva optimista, el uso de grandes modelos nacionales está creciendo significativamente y los grandes modelos de IA de China se están volviendo cada vez más competitivos en el extranjero.

Al hablar sobre la posibilidad de una competencia frontal con las principales empresas de Internet, Yan Junjie dijo que lo que puede hacer es amplificar infinitamente las cosas que tienen el potencial de volverse más fuertes. Una es cómo mejorar la tecnología y la otra es cómo hacerlo. tener una mejor cooperación con los usuarios.