Recentemente, Google e OpenAI, os gigantes no campo da IA, têm travado uma competição acirrada, e a velocidade dos novos modelos lançados por ambas as partes é impressionante. Esta competição não se reflete apenas na competição pelo desempenho do modelo, mas também reflete o rápido desenvolvimento de iterações de tecnologia de IA e a capacidade de responder rapidamente ao mercado. O investimento e a inovação do Google e da OpenAI em pesquisa e desenvolvimento tecnológico continuarão a promover o progresso no campo da inteligência artificial e a oferecer serviços mais convenientes e inteligentes aos usuários.
Recentemente, a competição entre Google e OpenAI esquentou novamente. Apenas um dia após a nova versão do GPT-4o liderar a lista de competição de IA, o Google lançou o mais recente modelo experimental Gemini-Exp-1121, recuperando rapidamente o campeonato. Há apenas uma semana, o Google lançou o Gemini-Exp-1114, o que parecia indicar que o Google respondeu muito rapidamente à dinâmica do OpenAI.
Jack Rae, cientista-chefe do Google DeepMind, disse que se trata de uma "blitz", o que implica que a velocidade de iteração do pós-treinamento é mais rápida do que o pré-treinamento.
De acordo com informações oficiais, o Gemini-Exp-1121 foi significativamente melhorado em muitos aspectos, refletido principalmente no aprimoramento das capacidades de codificação, capacidades de raciocínio e capacidades de compreensão visual. Além disso, este modelo atingiu um nível comparável ao atual top o1-preview e ao New Sonnet3.5 no controle de estilo de palavras de prompt complexas.
Em testes reais, o Gemini-Exp-1121 também teve um desempenho melhor que a nova versão do GPT-4o no manuseio da compreensão dos quadrinhos. Suas respostas foram mais abrangentes e pôde usar legendas com clareza e ênfase ousada para apresentar as informações. Na clássica questão de raciocínio lógico do Animal Crossing River, a resposta do Gemini-Exp-1121 foi completamente correta, mostrando maior capacidade de raciocínio lógico. Por outro lado, a nova versão do GPT-4o cometeu alguns erros.
Ao mesmo tempo, OpenAI também está desenvolvendo ativamente novos recursos. Recentemente, o código para a função de vídeo "Live Camera" foi descoberto na versão mais recente do ChatGPT, que marca seu progresso no reconhecimento de voz e visual. Os usuários do OpenAI também experimentarão esse recurso pela primeira vez ao usar o Modo de Fala Avançado, mostrando sua intenção de expandir o uso desse recurso no futuro.
É previsível que no próximo ano o principal método de comunicação com o Chatbot possa mudar gradualmente do diálogo de texto tradicional para a voz e serviços de agente mais inteligentes. Esta mudança pode ser liderada pelo lançamento da função “câmara ao vivo”.
Destaque:
O novo modelo Gemini-Exp-1121 do Google ultrapassou rapidamente o GPT-4o depois de chegar ao topo e voltou ao topo da competição de IA.
Gemini-Exp-1121 melhorou suas capacidades de codificação, raciocínio e compreensão visual e teve um bom desempenho.
A OpenAI está desenvolvendo uma função de “câmera em tempo real”, que pode mudar a forma de comunicação com a IA no futuro.
Em suma, a competição entre o Google e a OpenAI promoveu o rápido desenvolvimento da tecnologia de IA. No futuro, a forma como a IA interage com os humanos será mais diversificada e inteligente, o que vale a pena esperar.