A aplicação de modelos linguísticos em larga escala está a tornar-se cada vez mais difundida, e o processo de triagem dos dados de pré-formação por detrás deles também tem atraído muita atenção. Este artigo apresenta um estudo sobre o impacto da filtragem de dados no texto. Usando um novo conjunto de dados e estrutura chamado AboutMe, os pesquisadores analisaram dados de texto da seção “Sobre mim” das páginas da web para entender como a filtragem de dados afeta a extração e interpretação de informações como os interesses do autor de um site, funções sociais e localização geográfica. Este estudo destaca a complexidade da triagem de dados pré-treinamento e seu potencial impacto social, fornecendo orientações importantes para pesquisas futuras.
Com o avanço do processamento de linguagem natural e da geração de linguagem natural, grandes modelos de linguagem têm sido amplamente utilizados em aplicações práticas. Usando um novo conjunto de dados e estrutura chamado AboutMe, os pesquisadores documentaram o impacto da filtragem de dados no texto. Ao analisar a seção “Sobre mim” de uma página web, a equipe de pesquisa mediu informações como interesses, papel social e localização geográfica do autor do site. Destacam a complexidade do processo de triagem de dados pré-formação e apelam a mais investigação sobre as suas implicações sociais.
Esta pesquisa é fundamental para compreender o processo de formação de grandes modelos linguísticos e seus potenciais preconceitos e impactos sociais. A investigação futura deverá explorar ainda mais a forma de melhorar o processo de triagem de dados para reduzir preconceitos e melhorar a justiça e a fiabilidade dos modelos, promovendo, em última análise, o desenvolvimento saudável e uma aplicação mais ampla de grandes modelos linguísticos.