Google a publié son modèle d'intelligence artificielle de dernière génération Gemini 2.0, marquant une avancée majeure pour Google dans le domaine des assistants généraux d'intelligence artificielle. Gemini 2.0 offre des améliorations significatives dans le traitement multimodal et l'utilisation des outils, permettant une compréhension plus approfondie du monde et l'exécution des commandes utilisateur. Ce modèle est développé sur la base des versions Gemini 1.0 et 1.5 et a été appliqué dans plusieurs produits Google, au service de millions d'utilisateurs à travers le monde. Cet article présentera en détail les fonctions de Gemini 2.0 et son impact sur les produits Google et l'écosystème des développeurs.
Sundar Pichai, PDG de Google et de sa société mère Alphabet, a annoncé que la société avait lancé son dernier modèle d'intelligence artificielle, Gemini 2.0, qui marque une étape importante pour Google dans la construction d'un assistant d'IA universel. Gemini 2.0 démontre des progrès significatifs dans le traitement des entrées multimodales et l'utilisation d'outils natifs, permettant aux agents d'IA d'acquérir une compréhension plus approfondie du monde qui les entoure et de prendre des mesures au nom de l'utilisateur sous leur supervision.
Gemini2.0 est développé sur la base de ses prédécesseurs Gemini1.0 et 1.5, qui ont pour la première fois atteint des capacités de traitement multimodal natif et peuvent comprendre une variété de types d'informations, notamment le texte, la vidéo, les images, l'audio et le code. Actuellement, des millions de développeurs utilisent Gemini pour développer, ce qui pousse Google à réinventer ses produits, dont 7 produits destinés à 2 milliards d'utilisateurs, et à créer de nouveaux produits. NotebookLM est un exemple de capacités multimodales et à contexte long et est largement apprécié.
Le lancement de Gemini 2.0 annonce l'entrée de Google dans une nouvelle ère d'agent. Ce modèle dispose de capacités natives de sortie d'images et de son, ainsi que de capacités natives d'utilisation d'outils. Google a commencé à mettre Gemini 2.0 à la disposition des développeurs et des testeurs de confiance, et prévoit de l'intégrer rapidement dans ses produits, à commencer par Gemini et la recherche. Désormais, le modèle expérimental Gemini2.0 Flash sera ouvert à tous les utilisateurs de Gemini. Dans le même temps, Google a également lancé une nouvelle fonctionnalité appelée Deep Research, qui utilise un raisonnement avancé et des capacités de contexte long pour agir comme un assistant de recherche permettant d'explorer des sujets complexes et de compiler des rapports au nom des utilisateurs. Cette fonctionnalité est actuellement disponible dans Gemini Advanced.
La recherche est l’un des produits les plus impactés par l’IA, et l’aperçu de l’IA de Google atteint désormais 1 milliard de personnes, leur permettant de poser des questions entièrement nouvelles, devenant rapidement l’une des fonctionnalités de recherche les plus populaires de Google. Dans la prochaine étape, Google intégrera les capacités de raisonnement avancées de Gemini 2.0 à AI Overview pour résoudre des sujets plus complexes et des problèmes en plusieurs étapes, notamment des équations mathématiques avancées, des requêtes et un encodage multimodaux. Des tests limités ont commencé cette semaine, avec un déploiement plus large prévu au début de l'année prochaine. Google continuera également à proposer AI Overview dans davantage de pays et de langues au cours de l’année prochaine.
Google a également démontré ses résultats de pointe dans la recherche d'agents grâce aux capacités multimodales natives de Gemini 2.0. Gemini 2.0 Flash améliore le modèle 1.5 Flash, le modèle le plus populaire parmi les développeurs à ce jour, avec des temps de réponse tout aussi rapides. Notamment, le Flash 2.0 a même surpassé le 1.5 Pro dans les tests clés en étant deux fois plus rapide. Flash 2.0 apporte également de nouvelles fonctionnalités. En plus de prendre en charge les entrées multimodales telles que les images, la vidéo et l'audio, Flash 2.0 prend désormais également en charge la sortie multimodale telle que les images générées nativement mélangées avec du texte et la synthèse vocale (TTS) multilingue contrôlable. Il peut également appeler nativement des outils tels que la recherche Google, l'exécution de code et des fonctions tierces définies par l'utilisateur.
Gemini 2.0 Flash est désormais disponible pour les développeurs en tant que modèle expérimental, avec une entrée multimodale et une sortie de texte disponibles pour tous les développeurs via Google AI Studio et l'API Gemini de Vertex AI, tandis que la synthèse vocale et la génération d'images natives sont disponibles pour les partenaires à accès anticipé. La disponibilité générale suivra en janvier, ainsi que des tailles de modèles supplémentaires.
Pour aider les développeurs à créer des applications dynamiques et interactives, Google a également publié une nouvelle API multimodale en temps réel avec des capacités d'entrée de streaming audio et vidéo en temps réel et la possibilité d'utiliser plusieurs outils de combinaison.
À partir d'aujourd'hui, les utilisateurs Gemini du monde entier peuvent accéder à une version optimisée pour le chat de l'expérience Flash 2.0 en la sélectionnant dans le menu déroulant des modèles sur le Web pour ordinateur et mobile, et elle sera bientôt disponible dans l'application mobile Gemini. Au début de l'année prochaine, Google étendra Gemini 2.0 à davantage de produits Google.
Dans l'ensemble, la sortie de Gemini 2.0 représente une nouvelle étape franchie par Google dans le domaine de l'IA. Ses puissantes capacités multimodales et son intégration d'outils apporteront une expérience plus riche aux développeurs et aux utilisateurs et favoriseront l'application de la technologie de l'IA dans davantage de domaines. . développement et application. À l'avenir, Gemini 2.0 sera davantage intégré à l'écosystème de produits de Google pour offrir des services plus intelligents et plus pratiques aux utilisateurs.