Este artículo presenta principalmente la actualización GPT4.5 y el progreso de la investigación multimodal que provocó. Entre ellos, la aparición del marco X-InstructBLIP ha reducido el costo del razonamiento intermodal, y el equipo de investigación utilizó DisCRn para verificar su capacidad de aparición. Todo esto refleja el progreso significativo de los grandes modelos en el procesamiento de tareas multimodales y presagia una nueva dirección de desarrollo en el campo de la inteligencia artificial.
La actualización GPT4.5 lidera la investigación multimodal y el marco X-InstructBLIP permite un razonamiento multimodal de bajo costo. El equipo de investigación construyó DisCRn para verificar su capacidad de emergencia. Los modelos grandes han logrado avances importantes en el manejo de tareas multimodales.
En definitiva, la actualización de GPT4.5 y los resultados de la investigación relacionada marcan un gran avance en el campo multimodal de la inteligencia artificial, que se espera que se aplique en más campos en el futuro y aporte más comodidad a la vida de las personas. Esperamos que surjan resultados más innovadores en el futuro.