LeCun lanza un nuevo modelo visual multimodal Cambrian-1, que supera al GPT-4V en capacidades visuales

Autor：Eve Cole Fecha de actualización：2025-01-02 19:48:01

El equipo de LeCun y Xie Senin lanzó el impresionante modelo de lenguaje multimodal a gran escala Cambrian-1, que es un trabajo innovador que prioriza la visión. No es sólo un avance tecnológico, sino que también representa una nueva forma de pensar en la investigación del aprendizaje multimodal. Su naturaleza de código abierto proporciona recursos valiosos para investigadores y desarrolladores. El diseño de Cambrian-1 gira en torno a cinco elementos centrales: aprendizaje de representación visual, diseño de conectores, datos de ajuste de instrucciones, estrategia de ajuste de instrucciones y pruebas comparativas. Funciona bien en tareas de lenguaje visual e incluso es comparable a algunos de los mejores modelos propietarios. . Sin embargo, el equipo de investigación también señaló con franqueza las deficiencias del modelo en cuanto a las capacidades de diálogo y respondió activamente mejorando los métodos de capacitación.

En el mundo de la IA, acabamos de darle la bienvenida a un nuevo miembro llamativo: Cambrian-1, un modelo de lenguaje grande multimodal (MLLM) creado conjuntamente por gigantes de la industria como LeCun y Xie Saining. El surgimiento de este modelo no es sólo un salto tecnológico, sino también una profunda reflexión sobre la investigación del aprendizaje multimodal.

La filosofía de diseño de Cambrian-1 prioriza la visión, lo cual es especialmente valioso en la investigación actual de IA centrada en el lenguaje. Nos recuerda que el lenguaje no es la única forma que tienen los humanos de adquirir conocimientos, y que las experiencias sensoriales como la visión, el oído y el tacto son igualmente importantes. El código abierto de Cambrian-1 proporciona un recurso valioso para todos los investigadores y desarrolladores interesados en el aprendizaje multimodal.

La construcción de este modelo gira en torno a cinco elementos centrales: aprendizaje de representación visual, diseño de conectores, datos de ajuste de instrucción, estrategia de ajuste de instrucción y pruebas comparativas. Cada elemento es una exploración en profundidad del espacio de diseño de MLLM y refleja los conocimientos únicos del equipo de investigación sobre los problemas existentes.

Vale la pena mencionar que el desempeño de Cambrian-1 en tareas de lenguaje visual es impresionante. No sólo supera a otros modelos de código abierto, sino que incluso iguala a los mejores modelos propietarios de la industria en algunos puntos de referencia. Detrás de este logro está el pensamiento innovador del equipo de investigación sobre el ajuste de la instrucción y el diseño de conectores.

Sin embargo, el camino de investigación de Cambrian-1 no ha sido fácil. Los investigadores descubrieron que incluso los MLLM bien entrenados pueden tener deficiencias en la capacidad de conversación, un fenómeno conocido como "fenómeno del contestador automático". Para resolver este problema, agregaron indicaciones del sistema a la capacitación para alentar al modelo a participar en conversaciones más enriquecedoras.

El éxito de Cambrian-1 es inseparable del sólido equipo de investigación que lo respalda. Entre ellos, Shengbang Tong es uno de los autores del artículo y su contribución no puede ignorarse. Actualmente, está estudiando un doctorado en la Universidad de Nueva York, bajo la supervisión del profesor Yann LeCun y el profesor Xie Saining. Sus intereses de investigación abarcan modelos mundiales, aprendizaje autosupervisado/no supervisado, modelos generativos y modelos multimodales.

El código abierto de Cambrian-1 aporta un soplo de aire fresco a la comunidad de IA. No sólo proporciona una poderosa herramienta de aprendizaje multimodal, sino que también inspira a las personas a pensar profundamente sobre la investigación del aprendizaje multimodal. A medida que más y más investigadores y desarrolladores se unan a la exploración de Cambrian-1, tenemos motivos para creer que se convertirá en una fuerza importante para promover el desarrollo de la tecnología de IA.

Dirección del proyecto: https://github.com/cambrian-mllm/cambrian

Documento: https://arxiv.org/abs/2406.16860

La aparición de Cambrian-1 ha aportado nuevas posibilidades al campo de la IA multimodal, y su naturaleza de código abierto también fomenta una cooperación y una innovación más amplias. Esperamos que Cambrian-1 pueda demostrar sus poderosas capacidades en más campos en el futuro y promover el avance continuo de la tecnología de inteligencia artificial.