생성 언어 모델의 실제 적용 효과는 추론 단계의 디코딩 전략에 의해 제한되는 경우가 많습니다. RLHF와 같은 기존 방법은 주로 모델 승률에만 초점을 맞추고 디코딩 전략이 모델 성능에 미치는 영향을 무시하므로 효율성이 낮고 출력 품질 보장이 어렵습니다. 이 문제를 해결하기 위해 Google DeepMind와 Google 연구팀은 추론 전략과 모델 정렬 프로세스를 결합하여 모델의 추론 성능과 신뢰성을 향상시키는 것을 목표로 하는 InfAlign 프레임워크를 제안했습니다.
생성 언어 모델은 학습부터 실제 적용까지의 과정에서 많은 문제에 직면합니다. 주요 문제 중 하나는 추론 단계에서 최적의 모델 성능을 달성하는 방법입니다.
RLHF(Reinforcement Learning through Human Feedback)와 같은 현재 대책은 주로 모델의 승률을 향상시키는 데 중점을 두지만, Best-of-N 샘플링 및 제어된 디코딩과 같은 추론 중 디코딩 전략을 무시하는 경우가 많습니다. 훈련 목표와 실제 사용 사이의 이러한 차이는 비효율성을 초래하고 결과의 품질과 신뢰성에 영향을 미칠 수 있습니다.
이러한 문제를 해결하기 위해 Google DeepMind와 Google 연구팀은 추론 전략과 결합되도록 설계된 기계 학습 프레임워크인 InfAlign을 개발했습니다. InfAlign은 추론 시간 방법을 정렬 프로세스에 통합하고 훈련과 적용 사이의 격차를 해소하기 위해 노력합니다. 특정 추론 전략에 따라 보상 기능을 조정하기 위해 보정된 강화 학습 방법을 채택합니다. InfAlign은 Best-of-N 샘플링(다중 응답 생성 및 최상의 응답 선택) 및 Worst-of-N(안전성 평가에 일반적으로 사용됨)과 같은 기술에 특히 효과적이며 정렬된 모델이 통제된 환경과 실제 환경 모두에서 작동하도록 보장합니다. -세계 시나리오가 좋습니다.
InfAlign의 핵심은 CTRL(Calibration and Transformation Reinforcement Learning) 알고리즘으로, 보상 점수 보정, 추론 전략에 따라 이러한 점수 변환, KL 정규화 최적화 문제 해결의 세 단계를 따릅니다. InfAlign은 보상 변환을 특정 시나리오에 맞게 조정하여 훈련 목표를 추론 요구 사항에 맞게 조정합니다. 이 방법은 추론 중 승률을 향상시킬 뿐만 아니라 계산 효율성도 유지합니다. 또한 InfAlign은 모델의 견고성을 향상시켜 다양한 디코딩 전략에 효과적으로 대처하고 일관된 고품질 출력을 생성할 수 있도록 합니다.
InfAlign의 효과는 Anthropic의 유용성 및 무해성 데이터 세트를 사용한 실험에서 검증되었습니다. InfAlign은 기존 방법과 비교하여 Best-of-N 샘플링에서 8%-12%, Worst-N 보안 평가에서 4%-9%의 추론 승률을 향상시킵니다. 이러한 개선은 보상 모델의 잘못된 보정 문제를 효과적으로 해결하고 다양한 추론 시나리오에서 일관된 성능을 보장하는 보정된 보상 변환 덕분입니다.
InfAlign은 생성 언어 모델 정렬의 중요한 발전을 나타냅니다. 추론 인식 전략을 통합함으로써 InfAlign은 교육과 배포 간의 중요한 차이점을 해결합니다. 탄탄한 이론적 기반과 경험적 결과는 AI 시스템 정렬을 종합적으로 개선할 수 있는 잠재력을 강조합니다.
링크: https://arxiv.org/abs/2412.19792
하이라이트:
InfAlign은 Google DeepMind가 추론 단계에서 언어 모델의 성능을 향상시키는 것을 목표로 개발한 새로운 프레임워크입니다.
이 프레임워크는 훈련 목표와 추론 요구 사항 간의 정렬을 달성하기 위해 보정된 강화 학습 방법을 통해 추론 전략의 보상 기능을 조정합니다.
실험 결과에 따르면 InfAlign은 여러 작업에서 모델의 추론 승률을 크게 향상시켜 우수한 적응성과 신뢰성을 보여줍니다.
InfAlign 프레임워크의 등장은 추론 단계에서 생성 언어 모델의 효율성과 품질 문제를 해결하기 위한 새로운 아이디어를 제공하며, 모델 견고성과 신뢰성을 향상시키는 데 기여한다는 점은 주목할 만합니다. 향후 연구에서는 생성 AI 기술의 지속적인 개발을 촉진하기 위해 다양한 모델과 작업에 InfAlign을 적용하는 방법을 추가로 탐색할 수 있습니다.