워싱턴 대학의 연구원들은 모델 가중치에 액세스하지 않고도 대규모 언어 모델을 효율적으로 최적화하는 혁신적인 에이전트 조정 방법을 제안합니다. 이 방법은 작은 조정 모델과 조정되지 않은 모델의 예측을 비교하여 기본 모델의 예측을 조정된 모델로 유도함으로써 모델 성능을 향상시키고 훈련 지식을 더 잘 유지합니다. 이 획기적인 기술은 LLAMA-2의 원래 13B 및 70B 모델에 대한 미세 조정 실험에서 검증되었으며 상당한 효율성 이점을 입증했습니다.
웹마스터 홈(Webmaster Home)은 워싱턴 대학교(University of Washington)가 작은 조정 모델과 조정되지 않은 모델의 예측 결과를 비교하여 모델 가중치를 건드리지 않고도 대형 모델을 효율적으로 튜닝할 수 있는 프록시 튜닝 방법을 출시했다고 보도했습니다. 이 방법은 디코딩 중에 훈련 지식을 더 잘 유지하고 튜닝 효율성을 향상시킬 수 있습니다. 에이전트 튜닝 성능은 LlAMA-2의 13B 및 70B 원본 모델을 미세 조정하는 연구원을 통해 검증되었습니다. 이 방법은 기본 모델 M과 튜닝 모델 M+의 출력 예측 분포를 비교하여 기본 모델의 예측이 튜닝 모델의 방향으로 이동하도록 안내하는 혁신적인 튜닝 방법입니다. 에이전트 튜닝 방법은 디코딩 중에 훈련 지식을 더 잘 유지하면서 대형 모델을 효율적으로 튜닝할 수 있는 솔루션을 제공하여 AI 분야에 새로운 계몽을 가져올 것으로 기대됩니다.이 새로운 방법은 대규모 모델 튜닝을 위한 보다 편리하고 효율적인 방법을 제공하고, 모델 가중치를 직접 조작할 필요성을 줄이며, 모델 성능과 지식 보유 능력을 효과적으로 향상시켜 인공 지능 분야의 발전에 새로운 가능성을 열어줍니다. 앞으로 이 방법은 보다 대규모의 언어 모델 튜닝에 적용되어 AI 기술의 발전을 더욱 촉진할 것으로 예상됩니다.