A Anthropic atualizou os modelos da série Claude 3.5, permitindo que você opere o computador como um humano!

Autor：Eve Cole Data da Última Atualização：2024-12-09 17:48:01

O editor do Downcodes soube que a empresa de inteligência artificial Anthropic atualizou a série de modelos Claude 3.5 e lançou os novos Claude 3.5 Sonnet e Claude 3.5 Haiku. O principal destaque desta atualização é que ela melhora muito as capacidades de codificação e dá a Claude a capacidade de simular operações humanas em computadores, marcando um passo importante da Anthropic na expansão de modelos comerciais de IA em “agentes de IA” abrangentes. A pontuação do Sonnet no SWE-bench Verified aumentou para 49,0%, superando todos os modelos disponíveis publicamente, incluindo o modelo o1-preview da OpenAI. O Haiku tem um bom desempenho em vários testes de benchmark inteligentes com velocidade mais rápida e recursos de acompanhamento de comandos mais precisos. Esta atualização trará ferramentas de assistência de IA mais poderosas e uma experiência mais conveniente para desenvolvedores e usuários.

A empresa de inteligência artificial Anthropic anunciou grandes atualizações para a série de modelos Claude 3.5, incluindo o novo Claude 3.5 Sonnet e Claude 3.5 Haiku. A versão atualizada afirma permitir que a inteligência artificial assuma o controle do seu PC, executando tarefas básicas como simular entradas de teclado e cliques do mouse para usar qualquer aplicativo instalado em seu computador.

Os recursos de codificação foram significativamente aprimorados, superando o modelo OpenAI o1-preview

O novo Claude3.5Sonnet foi significativamente melhorado em todos os aspectos, especialmente em termos de capacidades de codificação. Sua pontuação no SWE-bench Verified aumentou de 33,4% para 49,0%, superando todos os modelos disponíveis publicamente, incluindo o modelo o1-preview da OpenAI.

Além disso, o seu desempenho na bancada TAU melhorou, especialmente nos setores de varejo e aviação. Tudo isso mantendo o mesmo preço e velocidade do seu antecessor.

O feedback dos clientes mostra que o Claude3.5Sonnet atualizado deu um salto qualitativo na codificação de IA. Por exemplo, o GitLab testou este modelo para tarefas DevSecOps e encontrou melhorias significativas nas capacidades de raciocínio sem aumentar a latência.

Claude3.5Haiku é o modelo mais rápido de próxima geração de Claude , superando Claude3Opus com o mesmo custo e velocidade e apresentando bom desempenho em vários benchmarks inteligentes, especialmente em tarefas de codificação. A baixa latência e os recursos mais precisos de acompanhamento de comandos do Claude3.5Haiku o tornam muito adequado para a geração de produtos de interface de usuário e experiências personalizadas.

Opere computadores como um ser humano

A recém-lançada função de uso do computador é uma tentativa completamente nova . As autoridades dizem que não se trata de desenvolver ferramentas específicas para Claude, mas de ensinar-lhe conhecimentos gerais de informática para que possa usar uma variedade de ferramentas e programas de software padrão. Os desenvolvedores podem usar esse recurso para automatizar processos repetitivos, criar e testar software, conduzir pesquisas abertas e muito mais.

É claro que a capacidade atual de Claude de usar computadores ainda precisa ser melhorada. Algumas operações simples, como rolar e arrastar, ainda são um desafio para Claude. Para garantir a segurança, as autoridades também desenvolveram um novo classificador que pode identificar se o uso do computador causou danos potenciais.

“Estamos prestes a entrar numa nova era onde a inteligência artificial pode aproveitar todas as ferramentas que você usa como indivíduo para completar tarefas”, disse Jared Kaplan, diretor científico da Anthropic, em uma entrevista. modelos desde estruturas de chat tradicionais até "agentes de IA" em grande escala.

Em uma demonstração, Claude foi convidado a planejar uma viagem para um amigo assistir ao nascer do sol na ponte Golden Gate. A IA não apenas abriu a página da web, mas também encontrou um local de visualização adequado no Google e adicionou o itinerário ao aplicativo de calendário. Embora esse desempenho seja impressionante, a Wired ressalta que não fornece algumas informações adicionais, como como chegar ao seu destino.

Além disso, em outra demonstração, Claude foi solicitado a construir um site simples. Como resultado, ele criou com sucesso um site usando o Visual Studio Code da Microsoft e abriu o servidor local para teste. No entanto, ao longo do caminho, ele encontrou alguns pequenos bugs, mas corrigiu o código com sucesso quando solicitado.

Claude 3.5 Sonne demonstrou sua capacidade de executar tarefas de várias etapas em diferentes plataformas de software, recuperando as informações necessárias de um sistema de gerenciamento de relacionamento com o cliente (CRM) para preencher de forma autônoma um formulário de solicitação de fornecedor.

O Claude3.5Sonnet atualizado agora está disponível para todos os usuários. A partir de hoje, os desenvolvedores podem construir com computador beta na API Anthropic, Amazon Bedrock e Vertex AI do Google Cloud. O novo Claude3.5Haiku será lançado ainda este mês.

Blog oficial: https://www.anthropic.com/news/3-5-models-and-computer-use

Destaque:

Os modelos Claude3.5Sonnet e Haiku foram significativamente atualizados e suas capacidades de codificação foram significativamente melhoradas.

?A recém-lançada função de uso do computador permite que Claude opere o computador como um humano, abrindo mais possibilidades.

?O uso de assistentes de IA traz riscos à segurança, e a Anthropic enfatiza a observação e melhoria graduais para garantir a segurança.

Em suma, a atualização do modelo da série Claude 3.5 da Anthropic demonstra o rápido desenvolvimento da tecnologia de IA e também indica que a IA desempenhará um papel mais poderoso em mais campos no futuro. Embora ainda existam alguns desafios, vale a pena esperar pelas suas perspectivas de desenvolvimento. O editor do Downcodes continuará prestando atenção aos últimos desenvolvimentos neste campo e trazendo relatórios mais interessantes aos leitores.