El diseño arquitectónico de grandes modelos de lenguaje (LLM) está experimentando cambios profundos y el dominio de la arquitectura Transformer enfrenta desafíos. Para abordar este desafío, Liquid AI, una startup incubada en el MIT, lanzó un marco innovador llamado STAR (Synthesis of Tailored Architectures), cuyo objetivo es generar y optimizar automáticamente la arquitectura del modelo de IA. El marco STAR utiliza algoritmos evolutivos y tecnología de codificación jerárquica para sintetizar y optimizar arquitecturas de modelos basadas en requisitos de hardware y rendimiento específicos, lo que muestra ventajas significativas tanto en eficiencia como en rendimiento.
El marco STAR utiliza algoritmos evolutivos y sistemas de codificación numérica para automatizar la generación y optimización de arquitecturas de modelos de inteligencia artificial. El equipo de investigación de Liquid AI señaló que el enfoque de diseño de STAR difiere del diseño de arquitectura tradicional al emplear una técnica de codificación jerárquica llamada "Genoma STAR" para explorar un amplio espacio de diseño de arquitecturas potenciales. A través de la combinación y mutación del genoma, STAR puede sintetizar y optimizar arquitecturas que cumplen con requisitos específicos de rendimiento y hardware.
En las pruebas dirigidas al modelado de lenguaje autorregresivo, STAR mostró un rendimiento superior al de los modelos híbridos y Transformer ++ optimizados tradicionales. En términos de calidad de optimización y tamaño de caché, la arquitectura evolucionada de STAR reduce el tamaño de caché hasta en un 37% en comparación con el modelo híbrido, y logra una reducción del 90% en comparación con el Transformer tradicional. Esta eficiencia no sacrifica el rendimiento predictivo del modelo, pero en algunos casos supera a la competencia.
La investigación también muestra que la arquitectura de STAR es altamente escalable, con un modelo evolutivo de STAR que escala de 125 millones de parámetros a mil millones de parámetros funcionando en puntos de referencia estándar tan bien o mejor que los modelos híbridos y Transformer++ existentes, al tiempo que reduce significativamente el razonamiento sobre los requisitos de almacenamiento en caché.
Liquid AI dijo que el concepto de diseño de STAR incorpora los principios de sistemas dinámicos, procesamiento de señales y álgebra lineal numérica para construir un espacio de búsqueda de unidades informáticas flexible. Una característica única de STAR es su diseño modular, que le permite codificar y optimizar arquitecturas en múltiples niveles, brindando a los investigadores la oportunidad de obtener información sobre combinaciones efectivas de componentes arquitectónicos.
Liquid AI cree que las capacidades de síntesis de arquitectura eficiente de STAR se aplicarán en varios campos, especialmente en escenarios donde es necesario equilibrar la calidad y la eficiencia informática. Aunque Liquid AI no ha anunciado planes de precios o implementación comercial específicos, los resultados de su investigación marcan un avance importante en el campo del diseño de arquitectura automatizada. A medida que el campo de la IA continúa evolucionando, marcos como STAR pueden desempeñar un papel importante en la configuración de la próxima generación de sistemas inteligentes.
Blog oficial: https://www.liquid.ai/research/automated-architecture-synchronous-via-targeted-evolution
En definitiva, el marco STAR de Liquid AI proporciona un nuevo método automatizado para el diseño de arquitectura de modelos de IA. Sus avances en eficiencia y rendimiento son de gran importancia y brindan nuevas posibilidades para el desarrollo de futuros sistemas de IA. El diseño modular y la escalabilidad del marco también le brindan amplias perspectivas de aplicación en diferentes campos.