L'éditeur de Downcodes a appris que la société d'intelligence artificielle Anthropic a mis à niveau la série de modèles Claude 3.5 et lancé les nouveaux Claude 3.5 Sonnet et Claude 3.5 Haiku. Le principal point fort de cette mise à niveau est qu'elle améliore considérablement les capacités de codage et donne à Claude la possibilité de simuler des opérations humaines sur des ordinateurs, marquant une étape importante d'Anthropic dans l'expansion des modèles d'IA commerciaux en « agents d'IA » complets. Le score de Sonnet sur SWE-bench Verified a augmenté à 49,0 %, dépassant tous les modèles accessibles au public, y compris le modèle o1-preview d'OpenAI. Haiku fonctionne bien dans plusieurs tests de référence intelligents avec une vitesse plus rapide et des capacités de suivi de commandes plus précises. Cette mise à niveau apportera des outils d'assistance à l'IA plus puissants et une expérience plus pratique aux développeurs et aux utilisateurs.
La société d'intelligence artificielle Anthropic a annoncé des mises à niveau majeures de la série de modèles Claude 3.5, notamment les nouveaux Claude 3.5 Sonnet et Claude 3.5 Haiku. La version mise à niveau prétend permettre à l'intelligence artificielle de prendre le contrôle de votre PC, en effectuant des tâches de base telles que la simulation de la saisie au clavier et des clics de souris pour utiliser n'importe quelle application installée sur votre ordinateur.
Les capacités de codage sont considérablement améliorées, dépassant le modèle OpenAI o1-preview
Le nouveau Claude3.5Sonnet a été considérablement amélioré dans tous les aspects, notamment en termes de capacités de codage. Son score sur SWE-bench Verified est passé de 33,4 % à 49,0 %, dépassant tous les modèles accessibles au public, y compris le modèle o1-preview d'OpenAI.
De plus, ses performances sur le banc TAU se sont améliorées, en particulier dans les secteurs de la vente au détail et de l'aviation. Tout cela en conservant le même prix et la même rapidité que son prédécesseur.
Les commentaires des clients montrent que la mise à niveau Claude3.5Sonnet a fait un saut qualitatif dans le codage de l'IA. Par exemple, GitLab a testé ce modèle pour les tâches DevSecOps et a constaté des améliorations significatives des capacités de raisonnement sans augmenter la latence.
Claude3.5Haiku est le modèle le plus rapide de nouvelle génération de Claude , surpassant Claude3Opus au même coût et à la même vitesse, et performant sur plusieurs tests intelligents, en particulier sur les tâches d'encodage. La faible latence de Claude3.5Haiku et ses capacités de suivi de commandes plus précises le rendent très approprié pour la génération de produits d'interface utilisateur et d'expériences personnalisées.
Utiliser des ordinateurs comme un humain
La fonction d'utilisation de l'ordinateur récemment lancée est une toute nouvelle tentative . Les responsables affirment qu'il ne s'agit pas de développer des outils spécifiques pour Claude, mais de lui enseigner des compétences informatiques générales afin qu'il puisse utiliser une variété d'outils et de logiciels standards. Les développeurs peuvent utiliser cette fonctionnalité pour automatiser des processus répétitifs, créer et tester des logiciels, mener des recherches ouvertes, etc.
Bien entendu, la capacité actuelle de Claude à utiliser les ordinateurs doit encore être améliorée. Certaines opérations simples, comme faire défiler et faire glisser, restent un défi pour Claude. Pour garantir la sécurité, les autorités ont également développé un nouveau classificateur capable d'identifier si l'utilisation d'un ordinateur a causé un préjudice potentiel.
"Nous sommes sur le point d'entrer dans une nouvelle ère où l'intelligence artificielle peut exploiter tous les outils que vous utilisez en tant qu'individu pour accomplir des tâches", a déclaré Jared Kaplan, directeur scientifique d'Anthropic, dans une interview. Une étape importante a été franchie dans le développement de l'IA commerciale. modèles allant des cadres de chat traditionnels aux « agents IA » à grande échelle.
Dans une démo, on a demandé à Claude de planifier un voyage pour un ami afin d'observer le lever du soleil sur le Golden Gate Bridge. L'IA a non seulement ouvert la page Web, mais a également trouvé un point de visualisation approprié sur Google et ajouté l'itinéraire à l'application de calendrier. Bien que cette performance soit impressionnante, Wired souligne qu'elle ne fournit pas d'informations supplémentaires, comme comment se rendre à destination.
De plus, lors d'une autre démonstration, on a demandé à Claude de créer un site Web simple. En conséquence, il a réussi à créer un site Web à l'aide du code Visual Studio de Microsoft et à ouvrir le serveur local pour le tester. Cependant, en cours de route, il a rencontré quelques bugs mineurs mais a réussi à corriger le code lorsque vous y êtes invité.
Claude 3.5 Sonne a démontré sa capacité à effectuer des tâches multi-étapes sur différentes plateformes logicielles en récupérant les informations requises d'un système de gestion de la relation client (CRM) pour remplir de manière autonome un formulaire de demande de fournisseur.
Le Claude3.5Sonnet mis à jour est désormais disponible pour tous les utilisateurs. À partir d'aujourd'hui, les développeurs peuvent créer avec la version bêta de l'ordinateur sur l'API Anthropic, Amazon Bedrock et Vertex AI de Google Cloud. Le nouveau Claude3.5Haiku sortira plus tard ce mois-ci.
Blog officiel : https://www.anthropic.com/news/3-5-models-and-computer-use
Souligner:
Les modèles Claude3.5Sonnet et Haiku ont été considérablement améliorés et leurs capacités de codage ont été considérablement améliorées.
? La fonction d'utilisation de l'ordinateur nouvellement lancée permet à Claude d'utiliser l'ordinateur comme un humain, ouvrant ainsi davantage de possibilités.
? L'utilisation d'assistants IA comporte des risques pour la sécurité, et Anthropic met l'accent sur l'observation et l'amélioration progressives pour garantir la sécurité.
Dans l'ensemble, la mise à niveau du modèle de la série Claude 3.5 d'Anthropic démontre le développement rapide de la technologie de l'IA et indique également que l'IA jouera un rôle plus puissant dans davantage de domaines à l'avenir. Même s’il reste encore quelques défis à relever, ses perspectives de développement méritent d’être attendues. L'éditeur de Downcodes continuera de prêter attention aux derniers développements dans ce domaine et de proposer des rapports plus passionnants aux lecteurs.