A ascensão dos grandes modelos de linguagem (LLM), especialmente o uso generalizado de aplicativos como o ChatGPT, mudou completamente o modelo de interação humano-computador. O LLM demonstra uma capacidade impressionante de gerar texto coerente e abrangente. Porém, o editor do Downcodes descobriu que o LLM também tem o problema da “alucinação”, ou seja, gera conteúdo que parece real, mas é fictício, sem sentido ou inconsistente com os prompts. Pesquisadores da Universidade de Harvard conduziram pesquisas aprofundadas sobre isso, tentando revelar as causas e soluções para a "ilusão" do LLM.
O surgimento de grandes modelos de linguagem (LLM), especialmente a popularidade de aplicativos como o ChatGPT, mudou completamente a forma como a interação humano-computador é feita. A capacidade dos modelos de gerar texto coerente e abrangente é impressionante. No entanto, apesar de suas poderosas capacidades, o LLM é propenso a “alucinações”, ou seja, gerar conteúdo que parece real, mas na verdade é fictício, sem sentido ou inconsistente com as instruções.
Pesquisadores da Universidade de Harvard conduziram um estudo aprofundado do fenômeno de "alucinação" do LLM e descobriram que sua raiz está no princípio de funcionamento do LLM. O LLM constrói um modelo probabilístico realizando aprendizado de máquina em dados de texto massivos e prevê a próxima palavra com base na probabilidade de coocorrência de palavras. Em outras palavras, o LLM não entende realmente o significado da linguagem, mas faz previsões baseadas em probabilidades estatísticas.
Os pesquisadores comparam o LLM ao “crowdsourcing” e acreditam que o LLM está na verdade gerando “consenso de rede”. Assim como plataformas como Wikipedia ou Reddit, o LLM extrai informações de grandes quantidades de dados de texto e gera as respostas mais comuns. Como a maioria dos idiomas é usada para descrever o mundo, as respostas geradas pelo LLM geralmente são precisas.
No entanto, podem ocorrer “ilusões” quando o LLM encontra tópicos vagos, controversos ou sem consenso. Para testar essa hipótese, os pesquisadores desenvolveram uma série de experimentos para testar o desempenho de diferentes LLMs ao lidar com diferentes temas. Os resultados experimentais mostram que o LLM tem um bom desempenho ao lidar com temas comuns, mas a precisão cai significativamente ao lidar com temas ambíguos ou controversos.
Este estudo mostra que embora o LLM seja uma ferramenta poderosa, sua precisão depende da qualidade e quantidade dos dados de treinamento. Ao utilizar o LLM, especialmente quando se trata de temas ambíguos ou controversos, seu resultado precisa ser tratado com cautela. Esta pesquisa também fornece orientações para o desenvolvimento futuro do LLM, que é a necessidade de melhorar a capacidade do LLM de lidar com tópicos ambíguos e controversos e melhorar a interpretabilidade dos seus resultados de produção.
Endereço do artigo: https://dl.acm.org/doi/pdf/10.1145/3688007
O estudo de Harvard fornece informações valiosas para a compreensão e melhoria do LLM. Também nos lembra que precisamos de usar o LLM com cautela, especialmente quando lidamos com temas complexos ou controversos, e que devemos avaliar criticamente os seus resultados. A direção de desenvolvimento futuro do LLM deve concentrar-se em melhorar a sua capacidade de lidar com informações difusas e melhorar a interpretabilidade. O editor do Downcodes espera que esta pesquisa possa promover o desenvolvimento da tecnologia LLM em uma direção mais confiável e confiável.