Récemment, Google et OpenAI, les géants du domaine de l'IA, se sont livrés à une concurrence féroce, et la vitesse des nouveaux modèles publiés par les deux parties est stupéfiante. Cette concurrence ne se reflète pas seulement dans la concurrence des performances des modèles, mais reflète également le développement rapide des itérations technologiques de l'IA et la capacité de répondre rapidement au marché. Les investissements et l’innovation de Google et d’OpenAI dans la recherche et le développement technologique continueront de promouvoir les progrès dans le domaine de l’intelligence artificielle et d’offrir des services plus pratiques et plus intelligents aux utilisateurs.
Récemment, la concurrence entre Google et OpenAI s’est à nouveau intensifiée. Juste un jour après que la nouvelle version de GPT-4o soit arrivée en tête de la liste des concurrents en IA, Google a lancé le dernier modèle expérimental Gemini-Exp-1121, regagnant rapidement le championnat. Il y a à peine une semaine, Google a publié Gemini-Exp-1114, ce qui semble indiquer que Google a réagi très rapidement à la dynamique d'OpenAI.
Jack Rae, scientifique en chef de Google DeepMind, a déclaré qu'il s'agissait d'un « blitz », ce qui implique que la vitesse d'itération de la post-formation est plus rapide que celle de la pré-formation.
Selon les informations officielles, Gemini-Exp-1121 a été considérablement amélioré à bien des égards, se reflétant principalement dans l'amélioration des capacités de codage, des capacités de raisonnement et des capacités de compréhension visuelle. De plus, ce modèle a atteint un niveau comparable à l'actuel top o1-preview et au New Sonnet3.5 dans le contrôle du style des mots d'invite complexes.
Lors des tests réels, Gemini-Exp-1121 a également obtenu de meilleurs résultats que la nouvelle version de GPT-4o dans la gestion de la compréhension des bandes dessinées. Ses réponses étaient plus complètes et il pouvait clairement utiliser des sous-titres et une emphase audacieuse pour présenter les informations. Dans la question de raisonnement logique classique d'Animal Crossing River, la réponse de Gemini-Exp-1121 était tout à fait correcte, montrant une capacité de raisonnement logique plus forte. D'un autre côté, la nouvelle version de GPT-4o a commis quelques erreurs.
Parallèlement, OpenAI développe également activement de nouvelles fonctionnalités. Récemment, le code de la fonction vidéo « Live Camera » a été découvert dans la dernière version de ChatGPT, ce qui marque ses progrès en matière de reconnaissance vocale et visuelle. Les utilisateurs d'OpenAI découvriront également cette fonctionnalité pour la première fois lors de l'utilisation du mode vocal avancé, démontrant son intention d'étendre l'utilisation de cette fonctionnalité à l'avenir.
Il est prévisible que l'année prochaine, la principale méthode de communication avec Chatbot passera progressivement du dialogue textuel traditionnel à la voix et à des services d'agents plus intelligents. Ce changement pourrait être conduit par le lancement de la fonction « caméra en direct ».
Souligner:
Le nouveau modèle de Google, Gemini-Exp-1121, a rapidement dépassé GPT-4o après avoir atteint le sommet et est revenu au sommet de la compétition IA.
Gemini-Exp-1121 a amélioré ses capacités de codage, de raisonnement et de compréhension visuelle et a obtenu de bons résultats.
OpenAI développe une fonction « caméra en temps réel », qui pourrait changer la façon de communiquer avec l'IA à l'avenir.
Dans l’ensemble, la concurrence entre Google et OpenAI a favorisé le développement rapide de la technologie de l’IA. À l’avenir, la manière dont l’IA interagit avec les humains sera plus diversifiée et plus intelligente, ce qui mérite d’être attendu.