La startup Rhymes AI, con sede en Tokio, ha lanzado su primer modelo de inteligencia artificial, Aria, un modelo experto híbrido multimodal (MoE) de código abierto. El editor de Downcodes descubrió que Aria se desempeña bien en el procesamiento de una variedad de entradas como texto, código, imágenes y videos, y sus capacidades incluso superan a algunos modelos comerciales conocidos. Aria utiliza una arquitectura MoE única para aumentar la eficiencia computacional a través de múltiples expertos especializados y tiene una ventana de contexto multimodal de hasta 24,9 mil millones de parámetros y 64,000 tokens, lo que le permite manejar datos de entrada más largos. Rhymes AI también cooperó con AMD para optimizar el rendimiento del modelo y lanzó la aplicación de búsqueda BeaGo basada en hardware AMD.
Aria está diseñado para proporcionar capacidades superiores de comprensión y procesamiento en una variedad de formatos de entrada, incluidos texto, código, imágenes y video. A diferencia del modelo Transformer tradicional, el modelo MoE reemplaza su capa de retroalimentación con múltiples expertos profesionales. Al procesar cada token de entrada, un módulo de enrutamiento selecciona un subconjunto de expertos para activar, mejorando así la eficiencia computacional y reduciendo la cantidad de parámetros de activación por token.
El decodificador de Aria puede activar 3.500 millones de parámetros por token de texto y el modelo completo tiene 24.900 millones de parámetros. Para manejar la entrada visual, Aria también diseñó un codificador visual liviano con 438 millones de parámetros que puede convertir entradas visuales de varias longitudes, tamaños y relaciones de aspecto en tokens visuales. Además, la ventana de contexto multimodal de Aria alcanza los 64.000 tokens, lo que significa que puede manejar datos de entrada más largos.
En términos de entrenamiento, Rhymes AI se divide en cuatro etapas: primero utiliza datos de texto para el entrenamiento previo, luego introduce datos multimodales, seguido de un entrenamiento de secuencia larga y finalmente un ajuste.
En este proceso, Aria utilizó un total de 6,4 billones de tokens de texto y 400 mil millones de tokens multimodales para el entrenamiento previo. Los datos provienen de conjuntos de datos conocidos como Common Crawl y LAION, y se realizaron algunas mejoras sintéticas.
Según pruebas comparativas relevantes, Aria supera a modelos como Pixtral-12B y Llama-3.2-11B en múltiples tareas multimodales, de lenguaje y programación, y tiene costos de inferencia más bajos debido a menos parámetros de activación.
Además, Aria funciona bien al procesar vídeos con subtítulos o documentos de varias páginas, y su capacidad para comprender vídeos y documentos largos supera a otros modelos de código abierto como GPT-4o mini y Gemini1.5Flash .
Para facilitar su uso, Rhymes AI publica el código fuente de Aria en GitHub bajo la licencia Apache2.0, lo que admite el uso académico y comercial. Al mismo tiempo, también proporcionan un marco de capacitación que puede ajustar Aria para múltiples fuentes y formatos de datos en una sola GPU. Vale la pena mencionar que Rhymes AI ha llegado a una cooperación con AMD para optimizar el rendimiento del modelo y demostró una aplicación de búsqueda llamada BeaGo, que puede ejecutarse en hardware AMD para proporcionar a los usuarios resultados de búsqueda de IA de imágenes y texto más completos.
Destacar:
Aria es el primer modelo de IA experto híbrido multimodal de código abierto del mundo.
Aria supera a muchos modelos de pares al procesar una variedad de entradas como texto, imágenes y videos.
Rhymes AI coopera con AMD para optimizar el rendimiento del modelo y lanzar la aplicación de búsqueda BeaGo que admite múltiples funciones.
En definitiva, el código abierto y el alto rendimiento del modelo Aria han aportado nuevos avances al campo de la inteligencia artificial y han proporcionado herramientas poderosas para desarrolladores e investigadores. Sus capacidades multimodales y su alta eficiencia computacional le otorgan un gran potencial en aplicaciones futuras. El editor de Downcodes espera con interés la aplicación y el desarrollo de Aria en más campos.