Tres zapateros con su ingenio combinado igualan a Zhuge Liang como el cerebro. --- un viejo dicho en China.
Presentamos nuevas palabras mágicas que mejoran la capacidad de razonamiento de los modelos de lenguaje: ¡Panel de discusión !
En conferencias y talleres, siempre hay discusiones penales entre expertos, y las personas intercambian sus opiniones sobre un tema determinado, mejorando la comprensión de nuevos conceptos, cambiando perspectivas de pensamiento y alcanzando una comprensión más completa de los debates o discusiones prevalecientes.
Figura 1: Panel de discusión entre Jack Ma y Elon Musk, WAIC, 2019:
Esta idea está relacionada con el trabajo de autoconsistencia (Wang, Xuezhi, et al.) (ya que varios expertos pueden no estar de acuerdo entre sí durante la mesa redonda).
Evaluamos la efectividad del método rápido propuesto en el conjunto de datos GSM8K, utilizando gpt-3.5-turbo api.
El costo de evaluar cada mensaje en el conjunto de datos de prueba 1k GSM8k es inferior a 2 USD.
Nuestro panel de discusión logra el mejor rendimiento y los estudios de ablación muestran la importancia del beneficio de cada elemento. Segundo y Tercer mejor se indican mediante formatos de subrayado y cursiva , respectivamente.
MétodoConjunto de datos | GSM8K (prueba 1k) | Contenido rápido | Referencia |
---|---|---|---|
Sin aviso | 0,789 | La respuesta es: | - |
CoT de disparo cero | 0,854 | Pensemos paso a paso: | (Kojima, Takeshi y otros 2022) |
APE CoT mejorado | 0.845 | Resolvamos esto paso a paso para asegurarnos de tener la respuesta correcta: | (Zhou, Yongchao y otros 2023) |
Instigación de ToT | 0,842 | Imagine que tres expertos diferentes responden a esta pregunta. Todos los expertos escribirán 1 paso de su pensamiento y luego lo compartirán con el grupo. Luego, todos los expertos pasarán al siguiente paso, etc. Si algún experto se da cuenta de que está equivocado en algún momento, se marcha. | (Repositorio de Dave Hulbert 2023) |
PanelGPT | 0,899 | 3 expertos están discutiendo la pregunta en un panel de discusión, tratando de resolverla paso a paso, y asegurarse de que el resultado sea correcto y evitar penalizaciones : | (Este repositorio, 18 de julio de 2023) |
PanelGPT sin AE y EA | 0,878 | 3 expertos discuten el problema con una discusión, intentan resolverlo paso a paso y asegurarse de que el resultado sea correcto: | (Nuestro, estudio de ablación) |
PanelGPT sin AE | 0,84 | 3 expertos están discutiendo la pregunta con una discusión, tratando de resolverla paso a paso, y asegurarse de que el resultado sea correcto y evitar penalizaciones: | (Nuestro, estudio de ablación) |
PanelGPT sin EA | 0,894 | 3 expertos están discutiendo la cuestión en una mesa redonda, intentando resolverla paso a paso y asegurarse de que el resultado sea correcto: | (Nuestro, estudio de ablación) |
PAG mi norte a lGPT (Mal escrito) | 0.883 | 3 expertos están discutiendo la pregunta con una discusión penal, tratando de resolverla paso a paso y asegurarse de que el resultado sea correcto: | (Nuestro, estudio de ablación) |
La capacidad de la indicación Zero-shot surge en los modelos de lenguaje entrenados con grandes cantidades de datos como GPT-3 y GPT-4 (Ouyang et al., 2022; OpenAI, 2023). Y así se demostró en Wei et al. (2021) que el ajuste de la instrucción mejora la capacidad de aprendizaje cero de los modelos lingüísticos.
A pesar del impresionante rendimiento de disparo cero exhibido por los modelos de lenguaje grandes, estos modelos a menudo exhiben un rendimiento subóptimo al ejecutar tareas más complejas en una configuración de disparo cero. Aprovechar las indicaciones breves presenta un enfoque viable para facilitar el aprendizaje en contexto (Brown et al., 2020; Min et al., 2022). Esta técnica requiere la inclusión de demostraciones dentro del mensaje, guiando efectivamente al modelo hacia un rendimiento mejorado. Estas demostraciones actúan como mecanismos condicionantes para ejemplos posteriores, lo que lleva al modelo a generar mejores respuestas.
En algunas tareas más desafiantes, como tareas complejas de aritmética, sentido común y razonamiento simbólico, las indicaciones de la cadena de pensamiento (CoT) han demostrado ser más efectivas para ayudar a los modelos lingüísticos a obtener respuestas correctas (Wei et al., 2022). CoT incluye pasos de razonamiento adicionales en los ejemplos de indicaciones breves. Kojima y cols. (2022) introduce además la CoT de tiro cero, mostrando que agregar instrucción independiente de la tarea puede mejorar el rendimiento del modelo en tareas específicas. En Zhang et al. (2022b), Auto-CoT combina la universalidad de la CoT de disparo cero y la capacidad de la CoT original impulsada por demostraciones y propone construir automáticamente demostraciones basadas en agrupaciones y muestreos basados en la diversidad que son beneficiosos para el razonamiento de CoT.
Wang y cols. (2022) mejoran el método CoT de pocos intentos muestreando múltiples rutas de razonamiento diversas y marginándolas, eligiendo las respuestas más consistentes entre todas las rutas de razonamiento muestreadas. El conocimiento generado que impulsó a Liu et al. (2021) mejora el razonamiento de sentido común al incorporar conocimientos o información relacionada con las preguntas para realizar predicciones más precisas. Los métodos de árbol de pensamientos (ToT) (Long, 2023; Yao et al., 2023) combinan métodos de planificación basados en árboles con habilidades de razonamiento de modelos lingüísticos y resuelven problemas difíciles de razonamiento paso a paso a través de múltiples conversaciones circulares. Hulbert (2023) también propuso una idea relacionada que aprovecha múltiples pensamientos de un modelo de lenguaje en un solo mensaje. Generación aumentada de memoria y recuperación (RAG) (Lewis et al., 2020), que es capaz de combinar memoria paramétrica y memoria no paramétrica como Wikipedia para completar tareas intensivas en conocimiento. MoT (Li & Qiu, 2023): pensamiento previo basado en el conjunto de datos externos sin etiquetar y luego recordar el conocimiento relacionado durante la inferencia.
Prompt-OIRL presenta la idea de utilizar el aprendizaje por refuerzo inverso fuera de línea para realizar evaluaciones y optimización rápidas fuera de línea. El método es eficiente y eficaz. El entrenamiento Prompt-OIRL en una MacBook Air con chip M2 solo toma 1 hora, sin embargo, el rendimiento de diferentes LLM en tareas de razonamiento aritmético se puede mejorar hasta un 24%.
Si utiliza nuestro código y aviso, considere citar nuestro artículo:
@inproceedings{sun2023query, title={Evaluación y optimización de mensajes dependientes de la consulta con RL inverso sin conexión}, autor={Sun, Hao y H{"u}y{"u}k, Alihan y van der Schaar, Mihaela}, título del libro ={La Duodécima Conferencia Internacional sobre Representaciones del Aprendizaje}, año={2023}}@article{sun2023reinforcement, title={Aprendizaje por refuerzo en la era de los LLM: ¿Qué es esencial? ¿Qué se necesita? Una perspectiva de RL sobre RLHF, las indicaciones y más allá}, autor={Sun, Hao}, diario={arXiv preprint arXiv:2310.06147}, año={2023}}