A versão 2.0 do Google Gemini foi lançada oficialmente: 2.0 Flash agora suporta saída multimodal

Autor：Eve Cole Data da Última Atualização：2024-12-20 16:00:02

O Google lançou seu modelo de inteligência artificial de última geração Gemini 2.0, marcando um grande avanço para o Google no campo de assistentes gerais de inteligência artificial. Gemini 2.0 oferece melhorias significativas no processamento multimodal e no uso de ferramentas, permitindo uma compreensão mais profunda do mundo e execução de comandos do usuário. Este modelo foi desenvolvido com base nas versões 1.0 e 1.5 do Gemini e foi aplicado em diversos produtos Google, atendendo milhões de usuários em todo o mundo. Este artigo apresentará em detalhes as funções do Gemini 2.0 e seu impacto nos produtos Google e no ecossistema de desenvolvedores.

Sundar Pichai, CEO do Google e de sua controladora Alphabet, anunciou que a empresa lançou seu mais recente modelo de inteligência artificial, Gemini 2.0, que marca um passo importante para o Google na construção de um assistente universal de IA. Gemini 2.0 demonstra avanços significativos no processamento de entrada multimodal e no uso de ferramentas nativas, permitindo que os agentes de IA obtenham uma compreensão mais profunda do mundo ao seu redor e tomem ações em nome do usuário sob sua supervisão.

Gemini2.0 é desenvolvido com base em seus antecessores Gemini1.0 e 1.5, que pela primeira vez alcançaram capacidades nativas de processamento multimodal e podem compreender uma variedade de tipos de informação, incluindo texto, vídeo, imagens, áudio e código. Atualmente, milhões de desenvolvedores usam o Gemini para desenvolver, levando o Google a reimaginar seus produtos, incluindo 7 produtos que atendem a 2 bilhões de usuários, e a criar novos produtos. NotebookLM é um exemplo de recursos multimodais e de longo contexto e é amplamente apreciado.

微信截图_20241212080452.png

O lançamento do Gemini 2.0 anuncia a entrada do Google em uma nova era de agentes. Este modelo possui recursos nativos de saída de imagem e áudio, bem como recursos nativos de uso de ferramentas. O Google começou a disponibilizar o Gemini 2.0 para desenvolvedores e testadores confiáveis e planeja integrá-lo rapidamente aos produtos, começando pelo Gemini e pela pesquisa. A partir de agora, o modelo experimental Gemini2.0 Flash estará aberto a todos os usuários do Gemini. Ao mesmo tempo, o Google também lançou um novo recurso chamado Deep Research, que usa raciocínio avançado e recursos de contexto longo para atuar como assistente de pesquisa para explorar tópicos complexos e compilar relatórios em nome dos usuários. Este recurso está atualmente disponível no Gemini Advanced.

A pesquisa é um dos produtos mais impactados pela IA, e a visão geral da IA do Google atinge agora 1 bilhão de pessoas, permitindo-lhes fazer perguntas totalmente novas, tornando-se rapidamente um dos recursos de pesquisa mais populares do Google. Como próximo passo, o Google trará os recursos avançados de raciocínio do Gemini 2.0 para o AI Overview para resolver tópicos mais complexos e problemas de várias etapas, incluindo equações matemáticas avançadas, consultas e codificação multimodais. Os testes limitados começaram esta semana, com uma implementação mais ampla planejada para o início do próximo ano. O Google também continuará a levar a visão geral da IA para mais países e idiomas no próximo ano.

O Google também demonstrou seus resultados de ponta em pesquisa de agentes por meio dos recursos multimodais nativos do Gemini 2.0. Gemini 2.0 Flash é uma melhoria em relação ao 1.5 Flash, o modelo mais popular entre os desenvolvedores até o momento, com tempos de resposta igualmente rápidos. Notavelmente, o Flash 2.0 superou até mesmo o 1.5 Pro nos principais benchmarks, sendo duas vezes mais rápido. O Flash 2.0 também traz novos recursos. Além de suportar entrada multimodal, como imagens, vídeo e áudio, o Flash 2.0 agora suporta saída multimodal, como imagens geradas nativamente misturadas com texto e áudio text-to-speech (TTS) multilíngue controlável. Ele também pode chamar nativamente ferramentas como pesquisa do Google, execução de código e funções definidas pelo usuário de terceiros.

微信截图_20241212080808.png

O Gemini 2.0 Flash agora está disponível para desenvolvedores como um modelo experimental, com entrada multimodal e saída de texto disponíveis para todos os desenvolvedores por meio do Google AI Studio e da API Gemini da Vertex AI, enquanto a conversão de texto em fala e a geração de imagens nativas estão disponíveis para parceiros de acesso antecipado. A disponibilidade geral ocorrerá em janeiro, junto com tamanhos de modelo adicionais.

Para ajudar os desenvolvedores a criar aplicativos dinâmicos e interativos, o Google também lançou uma nova API multimodal em tempo real com recursos de entrada de streaming de áudio e vídeo em tempo real e a capacidade de usar várias ferramentas de combinação.

A partir de hoje, os usuários do Gemini em todo o mundo podem acessar uma versão otimizada para chat do experimento Flash 2.0, selecionando-a no menu suspenso do modelo no desktop e na web móvel, e em breve estará disponível no aplicativo móvel Gemini. No início do próximo ano, o Google expandirá o Gemini 2.0 para mais produtos Google.

Em suma, o lançamento do Gemini 2.0 representa mais um passo dado pelo Google no campo da IA. Suas poderosas capacidades multimodais e integração de ferramentas trarão uma experiência mais rica para desenvolvedores e usuários e promoverão a aplicação da tecnologia de IA em mais campos. desenvolvimento e aplicação. No futuro, o Gemini 2.0 será ainda mais integrado ao ecossistema de produtos do Google para oferecer serviços mais inteligentes e convenientes aos usuários.