Pesquisadores da Universidade de Washington propõem um método inovador de ajuste de agente que otimiza com eficiência grandes modelos de linguagem sem exigir acesso aos pesos do modelo. Este método orienta as previsões do modelo base em direção ao modelo ajustado, comparando as previsões de um modelo pequeno ajustado e um modelo não ajustado, melhorando assim o desempenho do modelo e retendo melhor o conhecimento de treinamento. Esta tecnologia inovadora foi verificada em experimentos de ajuste fino nos modelos originais 13B e 70B do LLAMA-2, demonstrando suas significativas vantagens de eficiência.
Webmaster Home relatou que a Universidade de Washington lançou um método de ajuste de proxy que pode alcançar um ajuste eficiente de modelos grandes sem afetar os pesos do modelo, comparando os resultados de previsão de pequenos modelos ajustados e modelos não ajustados. Este método pode reter melhor o conhecimento do treinamento durante a decodificação e melhorar a eficiência do ajuste. O desempenho do ajuste do agente foi verificado por pesquisadores que ajustaram os modelos originais 13B e 70B do LlAMA-2. Este método compara as distribuições de previsão de saída do modelo básico M e do modelo de ajuste M+ e orienta as previsões do modelo básico para se moverem na direção do modelo de ajuste. É um método de ajuste inovador. O método de ajuste de agente fornece uma solução para ajuste eficiente de modelos grandes, ao mesmo tempo que retém melhor o conhecimento de treinamento durante a decodificação, o que deverá trazer um novo esclarecimento ao campo de IA.Este novo método fornece uma maneira mais conveniente e eficiente para ajuste de modelos grandes, reduz a necessidade de manipulação direta dos pesos dos modelos e melhora efetivamente o desempenho do modelo e as capacidades de retenção de conhecimento, trazendo novas possibilidades para o desenvolvimento do campo da inteligência artificial. No futuro, espera-se que este método seja aplicado em ajustes de modelos de linguagem em maior escala, promovendo ainda mais o progresso da tecnologia de IA.