Cet article présente principalement la mise à jour GPT4.5 et les progrès de la recherche multimodale qu'elle a provoqués. Parmi eux, l’émergence du framework X-InstructBLIP a réduit le coût du raisonnement multimodal, et l’équipe de recherche a utilisé DisCRn pour vérifier sa capacité d’émergence. Tout cela reflète les progrès significatifs des grands modèles dans le traitement des tâches multimodales et annonce une nouvelle direction de développement dans le domaine de l’intelligence artificielle.
La mise à jour GPT4.5 mène la recherche multimodale et le framework X-InstructBLIP permet un raisonnement multimodal à faible coût. L'équipe de recherche a construit DisCRn pour vérifier sa capacité d'émergence. Les grands modèles ont fait des progrès importants dans la gestion des tâches multimodales.
Dans l'ensemble, la mise à jour de GPT4.5 et les résultats de recherche associés marquent une percée dans le domaine multimodal de l'intelligence artificielle, qui devrait être appliquée dans davantage de domaines à l'avenir et apporter plus de commodité à la vie des gens. Nous attendons avec impatience l’émergence de résultats plus innovants à l’avenir.