Bem-vindo ao repositório do GitHub para o nosso artigo da EACL 2024, "WSC+: aprimorando o Desafio do Esquema Winograd usando a Árvore dos Expertos". Este projeto explora os recursos de grandes modelos de idiomas (LLMS) na geração de perguntas para o Winograd Schema Challenge (WSC), uma referência para avaliar o entendimento da máquina. Introduzimos um novo método de solicitação, árvore de especialistas (dedo do pé) e um novo conjunto de dados, WSC+, para fornecer informações mais profundas sobre o excesso de confiança e o viés do modelo.
O Winograd Schema Challenge (WSC) serve como uma referência proeminente para avaliar o entendimento da máquina. Enquanto os grandes modelos de idiomas (LLMS) se destacam em responder a perguntas da WSC, sua capacidade de gerar essas perguntas permanece menos explorada. Neste trabalho, propomos a Árvore dos Expertos (dedo do pé), um novo método de promoção que aprimora a geração de instâncias do WSC (50% de casos válidos vs. 10% em métodos recentes). Usando essa abordagem, introduzimos o WSC+, um novo conjunto de dados que compreende 3.026 frases geradas por LLM. Notavelmente, estendemos a estrutura do WSC incorporando novas categorias 'ambíguas' e 'ofensivas', fornecendo uma visão mais profunda sobre o excesso de confiança e o viés. Nossa análise revela nuances na consistência de avaliação de geração, sugerindo que os LLMs nem sempre podem superar a avaliação de suas próprias perguntas geradas quando comparadas às criadas por outros modelos. No WSC+, GPT-4, o LLM de melhor desempenho, atinge uma precisão de 68,7%, significativamente abaixo da referência humana de 95,1%.
Nossas principais contribuições neste trabalho são três vezes:
DataSet WSC+ : Ussilizamos o WSC+, com 3.026 instâncias geradas por LLM. Esse conjunto de dados aumenta o WSC original com categorias como 'ambíguas' e 'ofensivas'. Curiosamente, o GPT-4 (OpenAI, 2023), apesar de ser um candidato, obteve apenas 68,7% no WSC+, bem abaixo da referência humana de 95,1%.
Árvore dos especialistas (dedo do pé) : Apresentamos a árvore de especialistas, um método inovador que aplicamos à geração de instâncias do WSC+. O TOE melhora a geração de frases WSC+ válidas em quase 40% em comparação com métodos recentes como a cadeia de pensamento (Wei et al., 2022).
Consistência da geração-avaliação : exploramos o novo conceito de consistência de avaliação de geração no LLMS, revelando que modelos, como o GPT-3.5, geralmente abaixo do desempenho em instâncias que eles mesmos geram, sugerindo disparidades mais profundas de raciocínio.
Para quaisquer perguntas ou consultas, sinta -se à vontade para nos alcançar em Pardis.zahraei01 [at] sharif [dot] edu] Edu