O editor do Downcodes soube que pesquisadores da Meta FAIR, da Universidade da Califórnia, Berkeley e da Universidade de Nova York colaboraram para desenvolver uma nova tecnologia chamada Thinking Preference Optimization (TPO), que visa melhorar significativamente o processamento de instruções e o processamento de grandes modelos de linguagem. (LLM). Esta tecnologia rompe as limitações do LLM tradicional que se concentra apenas na resposta final. Ao simular o processo de pensamento humano, o modelo permite que o modelo conduza reflexão interna e dedução antes de dar a resposta, gerando assim uma resposta mais precisa e coerente. Espera-se que esta tecnologia revolucione a aplicação do LLM em vários campos e traga aos usuários uma melhor experiência interativa de IA.
O núcleo da tecnologia TPO é o método aprimorado de raciocínio Chain of Thinking (CoT). Esta abordagem incentiva os modelos a “pensar antes de responder” durante o treinamento, ajudando-os a desenvolver um processo de pensamento interno mais organizado antes de fornecer uma resposta final. Os prompts tradicionais do CoT às vezes resultam em precisão reduzida e são bastante difíceis de treinar devido à falta de etapas de raciocínio claras. O TPO supera esses desafios com sucesso, permitindo que os modelos otimizem e simplifiquem seus processos de pensamento sem expor etapas intermediárias aos usuários.
Durante o processo de treinamento do TPO, o grande modelo de linguagem é primeiro solicitado a gerar múltiplas ideias e, em seguida, a resposta final é resolvida. Esses resultados são então avaliados por um modelo de “julgador” para selecionar as respostas de melhor e pior desempenho. Esses resultados de avaliação são usados como pares de "seleção" e "rejeição" para otimização de preferência direta (DPO) para melhorar continuamente a qualidade da resposta do modelo.
Ao ajustar as dicas de treinamento, o TPO incentiva os modelos a pensar internamente antes de responder. Esse processo orienta o modelo a refinar suas respostas, tornando-as mais claras e relevantes. Por fim, o trabalho de avaliação é completado por um modelo de avaliação baseado em LLM, que pontua apenas a resposta final, sendo assim independente de etapas de pensamento ocultas e ajudando o modelo a melhorar a qualidade da resposta. O TPO também usa otimização de preferência direta para criar pares de respostas preferidas e rejeitadas que contêm pensamento oculto. Após várias rodadas de treinamento, o processo interno do modelo é ainda mais refinado.
Em benchmarks contra AlpacaEval e Arena-Hard, o método TPO superou as linhas de base de resposta tradicionais e superou o modelo Llama-3-8B-Instruct do Thinking Tips. O treinamento iterativo dessa abordagem otimiza os recursos de geração de pensamento, superando, em última análise, vários modelos básicos. Vale ressaltar que o TPO não é adequado apenas para tarefas lógicas e matemáticas, mas também mostra seu talento na instrução de tarefas em áreas criativas como marketing e saúde.
O especialista em IA e robótica Karan Verma compartilhou suas opiniões sobre o conceito de "pensar LLM" na plataforma social Bom efeito terapêutico.
Este processo de pensamento interno estruturado permite que o modelo processe instruções complexas de forma mais eficaz, expandindo ainda mais a sua aplicação em campos que requerem raciocínio multinível e compreensão detalhada, sem a necessidade de humanos fornecerem dados de pensamento específicos. Esta pesquisa mostra que o TPO tem o potencial de tornar grandes modelos de linguagem mais flexíveis e eficientes em diversos contextos, adequados para campos que possuem altos requisitos de flexibilidade e profundidade de geração de respostas.
Em suma, o advento da tecnologia TPO trouxe novas possibilidades para melhoria de desempenho de grandes modelos de linguagem, e vale a pena esperar por suas perspectivas de aplicação em vários campos. O editor do Downcodes acredita que com o contínuo desenvolvimento e aprimoramento da tecnologia, o TPO desempenhará um papel importante em mais áreas e contribuirá para o desenvolvimento da inteligência artificial.