Anthropic ha actualizado los modelos de la serie Claude 3.5, ¡permitiéndole operar la computadora como un humano!

Autor：Eve Cole Fecha de actualización：2024-12-09 17:48:01

El editor de Downcodes se enteró de que la empresa de inteligencia artificial Anthropic actualizó la serie de modelos Claude 3.5 y lanzó los nuevos Claude 3.5 Sonnet y Claude 3.5 Haiku. Lo más destacado de esta actualización es que mejora enormemente las capacidades de codificación y le brinda a Claude la capacidad de simular operaciones humanas en computadoras, lo que marca el paso importante de Anthropic en la expansión de los modelos comerciales de IA en "agentes de IA" integrales. La puntuación de Sonnet en SWE-bench Verified aumentó al 49,0%, superando todos los modelos disponibles públicamente, incluido el modelo de vista previa o1 de OpenAI. Haiku funciona bien en múltiples pruebas comparativas inteligentes con una velocidad más rápida y capacidades de seguimiento de comandos más precisas. Esta actualización brindará herramientas de asistencia de IA más poderosas y una experiencia más conveniente para desarrolladores y usuarios.

La empresa de inteligencia artificial Anthropic anunció importantes actualizaciones de la serie de modelos Claude 3.5, incluidos los nuevos Claude 3.5 Sonnet y Claude 3.5 Haiku. La versión mejorada pretende permitir que la inteligencia artificial se haga cargo de su PC, realizando tareas básicas como simular la entrada del teclado y los clics del mouse para usar cualquier aplicación instalada en su computadora.

Las capacidades de codificación han mejorado significativamente, superando el modelo de vista previa de OpenAI o1.

El nuevo Claude3.5Sonnet se ha mejorado significativamente en todos los aspectos, especialmente en términos de capacidades de codificación. Su puntuación en SWE-bench Verified aumentó del 33,4% al 49,0%, superando todos los modelos disponibles públicamente, incluido el modelo de vista previa o1 de OpenAI.

Además, su desempeño en el banco TAU ha mejorado, especialmente en los sectores minorista y de aviación. Todo ello manteniendo el mismo precio y velocidad que su antecesor.

Los comentarios de los clientes muestran que el Claude3.5Sonnet actualizado ha dado un salto cualitativo en la codificación de IA. Por ejemplo, GitLab probó este modelo para tareas DevSecOps y encontró mejoras significativas en las capacidades de razonamiento sin aumentar la latencia.

Claude3.5Haiku es el modelo más rápido de próxima generación de Claude , superando a Claude3Opus al mismo costo y velocidad, y funcionando bien en múltiples puntos de referencia inteligentes, especialmente en tareas de codificación. La baja latencia de Claude3.5Haiku y sus capacidades de seguimiento de comandos más precisas lo hacen muy adecuado para la generación de productos de interfaz de usuario y experiencias personalizadas.

Operar computadoras como un humano

La función de uso de computadora recientemente lanzada es un intento completamente nuevo . Los funcionarios dicen que no se trata de desarrollar herramientas específicas para Claude, sino de enseñarle habilidades informáticas generales para que pueda utilizar una variedad de herramientas y programas de software estándar. Los desarrolladores pueden utilizar esta capacidad para automatizar procesos repetitivos, crear y probar software, realizar investigaciones abiertas y más.

Por supuesto, aún es necesario mejorar la capacidad actual de Claude para utilizar computadoras. Algunas operaciones simples, como desplazarse y arrastrar, siguen siendo un desafío para Claude. Para garantizar la seguridad, los funcionarios también han desarrollado un nuevo clasificador que puede identificar si el uso de la computadora ha causado daños potenciales.

"Estamos a punto de entrar en una nueva era en la que la inteligencia artificial puede aprovechar todas las herramientas que utiliza como individuo para completar tareas", dijo en una entrevista Jared Kaplan, director científico de Anthropic. Se ha dado un paso importante en la expansión de la IA comercial. modelos desde marcos de chat tradicionales hasta "agentes de IA" a gran escala.

En una demostración, le pidieron a Claude que planificara un viaje para que un amigo viera el amanecer sobre el puente Golden Gate. La IA no solo abrió la página web, sino que también encontró un lugar de visualización adecuado en Google y agregó el itinerario a la aplicación de calendario. Si bien este rendimiento es impresionante, Wired señala que no proporciona información adicional, como cómo llegar a su destino.

Además, en otra demostración, se le pidió a Claude que creara un sitio web simple. Como resultado, creó con éxito un sitio web utilizando Visual Studio Code de Microsoft y abrió el servidor local para realizar pruebas. Sin embargo, en el camino, encontró algunos errores menores, pero solucionó el código con éxito cuando se le solicitó.

Claude 3.5 Sonne demostró su capacidad para realizar tareas de varios pasos en diferentes plataformas de software recuperando la información requerida de un sistema de gestión de relaciones con el cliente (CRM) para completar de forma autónoma un formulario de solicitud de proveedor.

El Claude3.5Sonnet actualizado ya está disponible para todos los usuarios. A partir de hoy, los desarrolladores pueden construir con una computadora beta en Anthropic API, Amazon Bedrock y Vertex AI de Google Cloud. El nuevo Claude3.5Haiku se lanzará a finales de este mes.

Blog oficial: https://www.anthropic.com/news/3-5-models-and-computer-use

Destacar:

Los modelos Claude3.5Sonnet y Haiku se han actualizado significativamente y sus capacidades de codificación se han mejorado significativamente.

? La función de uso de computadora recientemente lanzada le permite a Claude operar la computadora como un humano, abriendo más posibilidades.

El uso de asistentes de IA conlleva riesgos para la seguridad y Anthropic enfatiza la observación y mejora gradual para garantizar la seguridad.

Con todo, la actualización del modelo de la serie Claude 3.5 de Anthropic demuestra el rápido desarrollo de la tecnología de IA y también indica que la IA desempeñará un papel más poderoso en más campos en el futuro. Aunque todavía quedan algunos desafíos, vale la pena mirar con ansias sus perspectivas de desarrollo. El editor de Downcodes seguirá prestando atención a los últimos desarrollos en este campo y brindará informes más interesantes a los lectores.