¡Caiyun Xiaomeng v3.5 está en línea! Avance para mejorar la eficiencia del transformador: artículos de IA

Autor：Eve Cole Fecha de actualización：2025-02-05 20:00:02

Caiyun Technology lanzó el modelo general "Yun Jintianzhang" y la versión Caiyun Xiaomeng V3.5 basada en la arquitectura DCFormer, que marcó un gran avance en la eficiencia de la arquitectura de modelos en el campo de la IA. La arquitectura DCFormer mejora significativamente las capacidades de expresión del modelo a través de un mecanismo de atención múltiple de cabeza múltiple combinado dinámicamente, resuelve el problema de la ineficiencia de las arquitecturas de transformadores tradicionales y responde efectivamente a los desafíos energéticos que enfrentan el desarrollo de la IA. Esta innovación ha sido publicada en la Top International Conference ICML y ha recibido grandes elogios.

En el campo de la IA, la arquitectura del transformador siempre ha sido el soporte técnico principal para los principales modelos grandes como ChatGPT y Gemini. Este año, el documento de Caiyun Technology "Mejora de los transformadores con atención múltiple de múltiples cabezas de composición dinámicamente" publicado en la conferencia internacional superior ICML, es el primero en proponer la arquitectura DCFormer. Las pruebas muestran que el modelo DCPythia-6.9b desarrollado en base a esta arquitectura logra una mejora significativa de 1.7-2 veces en rendimiento al modelo de transformador tradicional. Con respecto a los desafíos energéticos que enfrentan el desarrollo de la IA, Yuan Xingyuan, CEO de Caiyun Technology, señaló que, según los pronósticos, el consumo global de energía de IA puede alcanzar 8 veces la capacidad de generación de energía de la Tierra actual para 2050. El CEO de NVIDIA, Huang Renxun, dijo más vívidamente que a la velocidad de desarrollo actual, "14 planetas, 3 galaxias y 4 soles" pueden ser necesarios en el futuro para proporcionar soporte energético para la IA. En respuesta a este dilema, la tecnología Caiyun decidió comenzar a mejorar la arquitectura subyacente del modelo. Al introducir un mecanismo de atención múltiple (DCMHA) de la atención múltiple combinada dinámicamente, DCFormer ha eliminado la unión fija de los cabezales de atención en el módulo tradicional de atención múltiple (MHA), logrando combinaciones dinámicas más flexibles, mejorando en gran medida la capacidad de expresión del modelo. Esta innovación ha permitido a la tecnología Caiyun obtener un promedio de 7 puntajes altos en tres documentos en la conferencia ICML, y se ha convertido en una de las dos únicas compañías en China que se invitan a dar un discurso en ICML2024 en Viena. Como el primer producto de la arquitectura DCFormer, la nueva versión de Caiyun Xiaomeng ha mostrado un excelente rendimiento: admite 10,000 palabras de entrada de texto largo, la longitud de la configuración de fondo de la historia puede alcanzar 10,000 palabras y la fluidez general y la coherencia se mejoran en un 20% . Esto significa que la IA puede mantener mejor la coherencia de la trama, mantener la consistencia de las personalidades de los personajes y tener la capacidad de reflejar y corregir las tramas. Como una de las primeras compañías de China en involucrarse en modelos de idiomas grandes, la tecnología Caiyun actualmente tiene tres productos de IA rentables: Caiyun Weather, Caiyun Xiaomeng y Caiyun Xiaoyi. La compañía dijo que continuará aumentando su inversión en I + D en DCFormer, y se compromete a romper el patrón tradicional de "capa de tecnología extranjera y capa de aplicación nacional" y promover la tecnología de IA nacional para ocupar una posición ventajosa en la competencia global. A través de este avance tecnológico, la tecnología Caiyun no solo demuestra la fortaleza de las empresas chinas en la innovación de la arquitectura subyacente de la IA, sino que también proporciona nuevas ideas para resolver los cuellos de botella de energía en el desarrollo de la IA, que se espera que acelere el desarrollo sostenible de la tecnología de IA. .

La innovación de Caiyun Technology ha traído una nueva esperanza al desarrollo de AI.