Este artigo apresenta principalmente a atualização do GPT4.5 e o progresso da pesquisa multimodal que ela causou. Entre eles, o surgimento da estrutura X-InstructBLIP reduziu o custo do raciocínio intermodal, e a equipe de pesquisa utilizou o DisCRn para verificar sua capacidade de emergência. Tudo isto reflete o progresso significativo de grandes modelos no processamento de tarefas multimodais e anuncia uma nova direção de desenvolvimento no campo da inteligência artificial.
A atualização GPT4.5 lidera a pesquisa multimodal, e a estrutura X-InstructBLIP permite o raciocínio intermodal de baixo custo. A equipe de pesquisa construiu o DisCRn para verificar sua capacidade de emergência. Grandes modelos fizeram progressos importantes no tratamento de tarefas multimodais.
Em suma, a atualização do GPT4.5 e os resultados das pesquisas relacionadas marcam um avanço no campo multimodal da inteligência artificial, que deverá ser aplicado em mais campos no futuro e trazer mais comodidade à vida das pessoas. Esperamos ansiosamente o surgimento de resultados mais inovadores no futuro.