최근에는 대형 언어 모델의 훈련 비용이 높게 유지되어 AI의 개발을 제한하는 중요한 요소가되었습니다. 교육 비용을 줄이고 효율성을 향상시키는 방법은 산업의 관심의 초점이되었습니다. 하버드와 스탠포드 대학의 연구원들은 다른 접근 방식을 취했으며 비용 효율적인 교육 방법을 탐색하기 위해 모델 교육 정확도로 시작했습니다. 그들은 모델 정확도를 줄임으로써 계산량을 효과적으로 줄이고 일부 경우 모델 성능을 향상시킬 수 있음을 발견했습니다. 이 연구는 언어 모델 교육 최적화를위한 새로운 아이디어를 제공하고 향후 AI 개발의 방향을 지적합니다.
인공 지능 분야에서 규모가 커질수록 능력이 강해집니다. 보다 강력한 언어 모델을 추구하기 위해 주요 기술 회사는 미친 듯이 모델 매개 변수와 교육 데이터를 쌓고 있지만 비용도 증가했음을 발견했습니다. 비용 효율적이고 효율적인 언어 모델을 훈련시키는 방법이 없습니까?
하버드와 스탠포드 대학의 연구원들은 최근 모델 교육의 정밀도가 언어 모델 교육의 "비용 비밀번호"를 잠금 해제하는 숨겨진 키와 같다는 것을 발견 한 논문을 발표했습니다.
모델 정확도는 무엇입니까? 전통적인 딥 러닝 모델은 일반적으로 32 비트 부동 소수점 번호 (FP32)를 사용하여 훈련되지만 최근에는 하드웨어가 개발되면 16 비트 부동 소수점 번호 (FP16) 또는 8 비트와 같은 저렴한 정밀 숫자 유형을 사용합니다. 정수 (int8) 훈련이 가능해졌습니다.
따라서 모델 정확도가 모델 성능에 미치는 영향은 무엇입니까? 연구자들은 많은 실험을 통해 모델 훈련 및 추론의 비용과 성능 변화를 다른 정확도로 분석하고 새로운 "정밀 인식"스케일링 규칙을 제안했습니다.
그들은 정밀도가 낮은 훈련이 모델의 "효과적인 매개 변수 수"를 효과적으로 줄여서 훈련에 필요한 계산량을 줄일 수 있음을 발견했습니다. 이는 동일한 계산 예산 하에서 더 큰 모델을 훈련하거나 동일한 규모로 더 낮은 정확도를 사용하여 많은 컴퓨팅 리소스를 절약 할 수 있음을 의미합니다.
더욱 놀랍게도, 연구자들은 어떤 경우에도 정확도가 낮은 훈련이 모델의 성능을 향상시킬 수 있음을 발견했습니다. 단계에서, 모델은 양자화 정확도의 감소에 더 강력하여 추론 단계에서 더 나은 성능을 보여줍니다.
그렇다면 우리는 어떤 정밀도가 모델을 훈련시키기로 선택해야합니까?
전통적인 16 비트 정밀 훈련이 최선의 선택이 아닐 수도 있습니다. 그들의 연구에 따르면 7-8 비트 정확도는보다 비용 효율적인 옵션 일 수 있습니다.
초저 정밀도 (예 : 4 비트) 훈련을 추구하는 것은 현명한 움직임이 아닙니다. 정확도가 매우 낮 으면 모델의 효과적인 매개 변수의 수가 급격히 떨어 지므로 성능을 유지하기 위해 모델 크기를 크게 늘려 컴퓨팅 비용이 높아집니다.
최적의 훈련 정확도는 크기의 모델마다 다를 수 있습니다. LLAMA-3 및 GEMMA-2 시리즈와 같은 많은 "오버 트레이닝"이 필요한 모델의 경우 정확도가 높은 훈련이 더 비용 효율적 일 수 있습니다.
이 연구는 언어 모델 교육을 이해하고 최적화 할 수있는 완전히 새로운 관점을 제공합니다. 정확도 선택은 정적이 아니지만 특정 모델 크기, 교육 데이터 볼륨 및 응용 프로그램 시나리오에 따라 거래해야합니다.
물론,이 연구에는 몇 가지 한계가 있습니다. 예를 들어, 그들이 사용하는 모델의 크기는 비교적 작으며 실험 결과는 더 큰 모델로 직접 일반화되지 않을 수 있습니다. 또한 모델의 손실 기능에만 초점을 맞추고 다운 스트림 작업에서 모델의 성능을 평가하지 않았습니다.
그럼에도 불구하고,이 연구는 큰 의미가 있습니다. 모델 정확도와 모델 성능 및 교육 비용 사이의 복잡한 관계를 보여 주며 향후 더 강력하고 경제적 인 언어 모델을 설계하고 훈련시키는 귀중한 통찰력을 제공합니다.
종이 : https://arxiv.org/pdf/2411.04330
요컨대,이 연구는 대형 언어 모델의 교육 비용을 줄이기위한 새로운 아이디어와 방법을 제공하고 인공 지능 분야의 향후 개발을위한 중요한 참조 가치를 제공합니다. 연구에는 몇 가지 한계가 있지만, "정밀 인식"스케일링 규칙과 모델 정확도와 비용과 성능 사이의 관계에 대한 심층적 인 논의는 중요한 이론적이고 실용적인 지침의 중요성을 가지고 있습니다.