Bienvenido al repositorio de GitHub para nuestro artículo EACL 2024, "WSC+: Mejora del desafío de esquema de Winograd usando el árbol de expertos". Este proyecto explora las capacidades de los modelos de idiomas grandes (LLM) en la generación de preguntas para el desafío de esquema de Winograd (WSC), un punto de referencia para evaluar la comprensión de la máquina. Introducimos un método de indicación novedoso, el árbol de expertos (TOE) y un nuevo conjunto de datos, WSC+, para proporcionar información más profunda sobre el exceso de confianza y el sesgo del modelo.
El Winograd Schema Challenge (WSC) sirve como un punto de referencia destacado para evaluar la comprensión de la máquina. Mientras que los modelos de idiomas grandes (LLM) se destacan en responder preguntas de WSC, su capacidad para generar tales preguntas sigue siendo menos explorada. En este trabajo, proponemos el árbol de expertos (TOE), un nuevo método de solicitación que mejora la generación de instancias de WSC (50% de casos válidos frente al 10% en los métodos recientes). Usando este enfoque, presentamos WSC+, un nuevo conjunto de datos que comprende 3.026 oraciones generadas por LLM. En particular, ampliamos el marco de WSC incorporando nuevas categorías 'ambiguas' y 'ofensivas', proporcionando una visión más profunda de la exceso de confianza y el sesgo del modelo. Nuestro análisis revela matices en la consistencia de evaluación de generación, lo que sugiere que las LLM no siempre tienen un rendimiento superior al evaluar sus propias preguntas generadas en comparación con las creadas por otros modelos. En WSC+, GPT-4, el LLM de alto rendimiento, logra una precisión del 68.7%, significativamente por debajo del punto de referencia humano del 95.1%.
Nuestras contribuciones clave en este trabajo son triple:
WSC+ DataSet : presentamos WSC+, con 3,026 instancias generadas por LLM. Este conjunto de datos aumenta el WSC original con categorías como 'ambiguo' y 'ofensivo'. Curiosamente, GPT-4 (Openai, 2023), a pesar de ser un líder, obtuvo solo un 68.7% en WSC+, muy por debajo del punto de referencia humano del 95.1%.
Árbol de expertos (TOE) : presentamos el árbol de expertos, un método innovador que aplicamos a la generación de instancias WSC+. TOE mejora la generación de oraciones WSC+ válidas en casi un 40% en comparación con los métodos recientes como la cadena de pensamiento (Wei et al., 2022).
Consistencia de evaluación de generación : exploramos el nuevo concepto de consistencia de evaluación de generación en LLM, revelando que los modelos, como GPT-3.5, a menudo tienen un rendimiento inferior en los casos que generan, lo que sugiere disparidades de razonamiento más profundas.
Para cualquier pregunta o consulta, no dude en comunicarse con nosotros en pardis.zahraei01 [at] sharif [dot] edu