El editor de Downcodes conoció que investigadores de Meta FAIR, la Universidad de California, Berkeley y la Universidad de Nueva York colaboraron para desarrollar una nueva tecnología llamada Thinking Preference Optimization (TPO), que tiene como objetivo mejorar significativamente el procesamiento de instrucciones y el procesamiento de grandes modelos de lenguaje. (LLM). Calidad de respuesta. Esta tecnología rompe las limitaciones del LLM tradicional que solo se centra en la respuesta final. Al simular el proceso de pensamiento humano, el modelo permite realizar reflexiones y deducciones internas antes de dar la respuesta, generando así una respuesta más precisa y coherente. Se espera que esta tecnología revolucione la aplicación de LLM en diversos campos y brinde a los usuarios una mejor experiencia interactiva de IA.
El núcleo de la tecnología TPO es el método de razonamiento mejorado de la Cadena de Pensamiento (CoT). Este enfoque anima a los modelos a "pensar antes de responder" durante la formación, ayudándoles a desarrollar un proceso de pensamiento interno más organizado antes de dar una respuesta final. Las indicaciones tradicionales de CoT a veces dan como resultado una precisión reducida y son bastante difíciles de entrenar debido a la falta de pasos de pensamiento claro. TPO supera con éxito estos desafíos al permitir que los modelos optimicen y simplifiquen sus procesos de pensamiento sin exponer pasos intermedios a los usuarios.
Durante el proceso de capacitación de TPO, primero se solicita al modelo de lenguaje grande que genere múltiples ideas y luego se clasifica la respuesta final. Luego, estos resultados se evalúan mediante un modelo de "juez" para seleccionar las respuestas con mejor y peor rendimiento. Estos resultados de evaluación se utilizan como pares de "seleccionar" y "rechazar" para la optimización de preferencias directas (DPO) para mejorar continuamente la calidad de la respuesta del modelo.
Al ajustar las señales de entrenamiento, TPO anima a los modelos a pensar internamente antes de responder. Este proceso guía al modelo para perfeccionar sus respuestas, haciéndolas más claras y relevantes. Finalmente, el trabajo de evaluación se completa con un modelo de evaluación basado en LLM, que solo califica la respuesta final, siendo independiente de los pasos de pensamiento ocultos y ayudando al modelo a mejorar la calidad de la respuesta. TPO también utiliza la optimización de preferencias directas para crear pares de respuestas preferidas y rechazadas que contienen pensamientos ocultos. Después de múltiples rondas de entrenamiento, el proceso interno del modelo se refina aún más.
En los puntos de referencia contra AlpacaEval y Arena-Hard, el método TPO superó las líneas base de respuesta tradicionales y superó al modelo Llama-3-8B-Instruct de Thinking Tips. El entrenamiento iterativo de este enfoque optimiza las capacidades de generación de pensamiento y, en última instancia, supera a múltiples modelos de referencia. Vale la pena mencionar que TPO no solo es adecuado para tareas lógicas y matemáticas, sino que también muestra su talento en la instrucción siguiendo tareas en campos creativos como marketing y salud.
El experto en inteligencia artificial y robótica Karan Verma compartió sus puntos de vista sobre el concepto de "Thinking LLM" en la plataforma social Buen efecto terapéutico.
Este proceso de pensamiento interno estructurado permite que el modelo procese instrucciones complejas de manera más efectiva, ampliando aún más su aplicación en campos que requieren razonamiento multinivel y comprensión detallada, sin la necesidad de que los humanos proporcionen datos de pensamiento específicos. Esta investigación muestra que TPO tiene el potencial de hacer que los modelos de lenguaje grandes sean más flexibles y eficientes en diversos contextos, adecuados para campos que tienen altos requisitos de flexibilidad y profundidad de generación de respuestas.
Con todo, la llegada de la tecnología TPO ha brindado nuevas posibilidades para mejorar el rendimiento de modelos de lenguaje grandes, y vale la pena esperar sus perspectivas de aplicación en diversos campos. El editor de Downcodes cree que con el continuo desarrollo y mejora de la tecnología, TPO desempeñará un papel muy importante en más campos y contribuirá al desarrollo de la inteligencia artificial.