대규모 언어 모델(LLM)의 교육 및 최적화는 인공 지능 분야의 주요 과제입니다. 효율적인 훈련 방법은 모델의 성능을 보장할 뿐만 아니라 모델이 인간의 가치와 일치하는지 확인해야 합니다. 효과적인 LLM 훈련 방법인 RLHF(Reinforcement Learning with Human Feedback)가 최근 널리 사용되고 있지만 효율성과 확장성은 여전히 개선되어야 합니다. 이를 위해 ByteDance Doubao 빅 모델 팀은 기존 RLHF 프레임워크의 한계를 해결하고 LLM 교육에 새로운 혁신을 가져오는 것을 목표로 하는 HybridFlow라는 RLHF 프레임워크를 오픈 소스로 제공했습니다.
RLHF는 일반적으로 세 단계로 구성됩니다. 먼저 행위자 모델은 입력 프롬프트에 따라 텍스트를 생성하고, 비평 모델, 참조 모델 및 보상 모델은 생성된 텍스트를 평가하고 마지막으로 해당 값, 참조 확률 및 보상 값을 계산합니다. 평가 결과는 인간 선호도와 더욱 일치하는 텍스트를 생성하도록 행위자 모델을 훈련하는 데 사용됩니다. 기존 RLHF 프레임워크는 일반적으로 단일 컨트롤러를 채택하여 전체 데이터 흐름을 관리하지만 이는 분산 컴퓨팅이 필요한 LLM에는 비효율적입니다.
HybridFlow 프레임워크는 단일 컨트롤러와 다중 컨트롤러 모드를 혁신적으로 결합하고 계층화된 API 설계를 통해 복잡한 계산과 데이터 종속성을 분리하여 RLHF 데이터 흐름의 유연한 표현과 효율적인 실행을 달성합니다.
HybridFlow의 장점은 주로 다음 세 가지 측면에 반영됩니다.
여러 RLHF 알고리즘 및 모델에 대한 유연한 지원: HybridFlow는 사용자가 PPO, ReMax 및 Safe-RLHF와 같은 다양한 RLHF 알고리즘을 쉽게 구현하고 확장할 수 있도록 모듈식 API를 제공합니다.
효율적인 모델 가중치 재구성: 3D-HybridEngine 구성 요소는 훈련 및 생성 단계에서 행위자 모델의 효율적인 모델 가중치 재구성을 지원하여 메모리 중복 및 통신 오버헤드를 최소화합니다.
자동화된 모델 배포 및 병렬 전략 선택: 자동 매핑 구성 요소는 모델 로드 및 데이터 종속성을 기반으로 모델을 다양한 장치에 자동으로 매핑하고 최상의 병렬 전략을 선택하여 모델 배포 프로세스를 단순화하고 교육 효율성을 향상시킬 수 있습니다.
실험 결과에 따르면 다양한 RLHF 알고리즘을 실행할 때 HybridFlow의 처리량이 최대 20.57배까지 크게 향상되는 것으로 나타났습니다. HybridFlow의 오픈 소스는 RLHF 연구 및 개발을 위한 강력한 도구를 제공하고 미래 LLM 기술 개발을 촉진할 것입니다.
논문 주소: https://arxiv.org/pdf/2409.19256
Downcodes의 편집자는 다음과 같이 결론을 내렸습니다. HybridFlow 프레임워크의 오픈 소스는 대규모 언어 모델 훈련을 위한 새로운 아이디어와 도구를 제공합니다. 그 효율성과 유연성은 LLM 기술의 추가 개발을 촉진할 것으로 예상되며 관심과 심층적인 연구가 필요합니다. . 앞으로 HybridFlow를 기반으로 하는 더욱 혁신적인 애플리케이션을 볼 수 있기를 기대합니다.