O rápido desenvolvimento de grandes modelos de idiomas (LLM) trouxe conveniência sem precedentes, mas também enfrenta o principal desafio de "ilusão". A chamada "ilusão" refere-se ao conteúdo de geração de LLM que parece real, mas na verdade é falso ou inconsistente com os fatos. Este artigo realizará discussões aprofundadas sobre os resultados mais recentes de pesquisas dos pesquisadores de Harvard sobre o fenômeno da "ilusão" do LLM, analisarão suas causas e esperam ansiosamente por futuras direções de desenvolvimento. A pesquisa revela que a raiz da "ilusão" da LLM está em seu mecanismo de previsão baseado na probabilidade estatística, em vez de um entendimento semântico real. Isso torna o LLM propenso a desinformação ao lidar com tópicos vagos ou controversos.
O surgimento de grandes modelos de linguagem (LLM), especialmente a popularização de aplicativos como o ChatGPT, mudou completamente a maneira como as interações humano-computador. Esses modelos são impressionantes para gerar texto coerente e abrangente. No entanto, apesar de suas habilidades poderosas, o LLM é propenso a "ilusão", isto é, para gerar conteúdo que parece real, mas na verdade é fictício, sem sentido ou inconsistente com o prompt.
Pesquisadores da Universidade de Harvard conduziram pesquisas aprofundadas sobre o fenômeno da "ilusão" do LLM e descobriram que sua causa raiz está na maneira como o LLM funciona. A LLM constrói um modelo de probabilidade por aprendizado de máquina em dados de texto maciças e prevê a próxima palavra com base na probabilidade de co-ocorrência de palavras. Em outras palavras, o LLM realmente não entende o significado da linguagem, mas faz previsões baseadas na probabilidade estatística.
Os pesquisadores compararam o LLM a "crowdsourcing" e acreditavam que o LLM está realmente emitindo "consenso de rede". Assim como plataformas como a Wikipedia ou o Reddit, a LLM extrai informações de grandes quantidades de dados de texto e gera as respostas mais comuns. Como a maioria dos idiomas é usada para descrever o mundo, as respostas geradas pelo LLM geralmente são precisas.
No entanto, a "ilusão" ocorre quando o LLM encontra um tópico vago, controverso ou de consenso. Para testar essa hipótese, os pesquisadores projetaram uma série de experimentos que testaram o desempenho de diferentes LLMs ao lidar com tópicos diferentes. Os resultados experimentais mostram que o LLM tem um bom desempenho ao lidar com tópicos comuns, mas diminui significativamente a precisão ao lidar com tópicos vagos ou controversos.
Este estudo mostra que o LLM, embora poderoso como uma ferramenta, é sua precisão dependente da qualidade e quantidade de dados de treinamento. Ao usar o LLM, especialmente ao lidar com tópicos confusos ou controversos, sua saída precisa ser tomada com cautela. Este estudo também fornece orientação para o desenvolvimento futuro da LLM, a saber, a necessidade de melhorar a capacidade do LLM de lidar com tópicos confusos e controversos e melhorar a interpretabilidade de seus resultados de saída.
Endereço em papel: https://dl.acm.org/doi/pdf/10.1145/3688007
A pesquisa da Harvard University fornece informações valiosas para entender e melhorar o LLM, e também nos lembra de usar o LLM com cautela, especialmente ao visar tópicos vagos ou controversos, e precisamos identificar cuidadosamente a precisão de seus resultados de saída e espero que o LLM o supere No futuro.