Recentemente, o Instituto Austríaco de Ciências Complexas (CSH) avaliou o conhecimento histórico dos três principais modelos de linguagem em larga escala (LLMS) do GPT-4, Llama e Gêmeos, e os resultados foram surpreendentes. A equipe de pesquisa usa a ferramenta de teste de benchmark chamada "HIST-LLM". Os resultados da pesquisa foram anunciados na Conferência de Inteligência Artificial Neurips, e os resultados desencadearam os ponders profundos das pessoas à capacidade do LLMS de aplicar em áreas complexas.
Para avaliar o desempenho desses modelos em conhecimento histórico, os pesquisadores desenvolveram uma ferramenta de teste de referência chamada "Hist-llm". A ferramenta é baseada no banco de dados histórico global, que visa verificar a precisão da IA que responde a perguntas históricas. Os resultados da pesquisa foram anunciados na Neurips, uma conhecida conferência de inteligência artificial, e os dados mostraram que a precisão do melhor desempenho do GPT-4Turbo foi de apenas 46%. Este resultado mostra que seu desempenho é apenas melhor do que adivinhação aleatória.
Maria Del Rio-Chanona, professora associada de ciência da computação da Universidade de Londres, disse: "Embora o grande modelo de idioma seja impressionante, o entendimento de seu conhecimento histórico de alto nível ainda é insuficiente. Quando questões históricas, parecia incomparável. Além disso, quando os pesquisadores perguntaram se o Egito antigo tinha um exército residente profissional, o GPT-4 também respondeu "sim", e a resposta real não foi.
O estudo também revelou que o modelo teve um desempenho ruim ao lidar com algumas áreas específicas (como África, África do Sul), o que indica que seus dados de treinamento podem ter algum preconceito. Petr Turchin, a pessoa responsável pela pesquisa, apontou que esses resultados refletiam que os LLMs ainda não podiam substituir os seres humanos em algumas áreas.
Pontos:
-GPT-4Turbo A precisão em exames históricos de alto nível é de apenas 46%, e o desempenho não é bom.
-A pesquisa mostra que grandes modelos de linguagem ainda são insuficientes no entendimento de um conhecimento histórico complexo.
-A equipe de pesquisa espera melhorar o potencial de aplicação dos modelos em pesquisas históricas, melhorando as ferramentas de teste.
Os resultados deste estudo nos lembram que, embora grandes modelos de idiomas tenham feito progresso significativo em muitos aspectos, ainda existem limitações ao lidar com questões complexas que exigem um entendimento aprofundado e análise meticulosa. Pesquisas futuras precisam prestar atenção em como melhorar os dados e algoritmos de treinamento dos modelos para aprimorar seus recursos de aplicação em vários campos e, finalmente, realizar a inteligência artificial geral real.