A versão experimental Gemini do Google DeepMind (Exp1114) tem um desempenho incrível na plataforma Chatbot Arena! Após testes na comunidade com mais de 6.000 votos, superou seus concorrentes em diversas áreas importantes, especialmente matemática, instruções complexas e redação criativa, demonstrando fortes capacidades gerais. O editor de Downcodes lhe dará uma compreensão profunda do excelente desempenho do Gemini-Exp-1114 e da interpretação que a indústria faz dele.
A versão experimental Gemini mais recente do Google DeepMind (Exp1114) alcançou resultados impressionantes na plataforma Chatbot Arena. Após mais de uma semana de testes na comunidade, os dados acumulados de mais de 6.000 votos mostram que este novo modelo supera os produtos concorrentes com vantagens significativas e mostra uma força incrível em muitas áreas-chave.
Em termos de pontuação geral, Gemini-Exp-1114 empatou em primeiro lugar com o GPT-4-latest com uma excelente pontuação de mais de 40 pontos, superando a versão anterior líder do GPT-4-preview. O que é ainda mais surpreendente é que este modelo alcançou o topo em áreas fundamentais como matemática, instruções complexas e escrita criativa, mostrando a sua forte força abrangente.
Especificamente, o progresso do Gemini-Exp-1114 é impressionante:
Saltou do 3º para o primeiro lugar na classificação geral
Avaliação de habilidade em matemática subiu de 3º para 1º
O processamento de prompt complexo subiu do 4º para o 1º lugar
O desempenho da escrita criativa melhorou do 2º para o 1º
Capacidades de processamento visual também estão no topo da lista
O nível de programação também melhorou do 5º para o 3º
O Google AI Studio lançou oficialmente esta nova versão para os usuários experimentarem. No entanto, a comunidade também expressou preocupação com algumas questões específicas, como se o limite de 1.000 tokens ainda existe e como lidar com questões práticas de aplicação, como saída de texto extremamente longo.
Os analistas da indústria acreditam que este avanço mostra que o investimento a longo prazo da Google no campo da IA está a começar a dar frutos. Curiosamente, o modelo mantém uma classificação de 4º lugar em controle de estilo, o que pode implicar que a equipe de desenvolvimento adotou principalmente novos métodos pós-treinamento, em vez de fazer alterações no modelo pré-treinado.
Este grande avanço também desencadeou discussões sobre a estrutura da indústria. A OpenAI frequentemente lança novos produtos quando os concorrentes lançam atualizações importantes, mas desta vez o progresso do Google foi tão grande que atraiu a atenção da indústria. Algumas pessoas acreditam que isto pode anunciar a chegada do Gemini2 e que a competitividade do Google no campo dos grandes modelos está a melhorar significativamente.
O excelente desempenho do Gemini-Exp-1114 marca outro marco histórico para o Google no campo de grandes modelos de IA e também traz mais possibilidades para o desenvolvimento futuro de IA. Esperamos mais surpresas nas versões subsequentes do Gemini!