대규모 AI 모델을 훈련하는 데는 비용이 많이 들고 막대한 리소스 요구 사항으로 인해 광범위한 적용이 제한되고 에너지 효율성과 환경에 미치는 영향에 대한 우려가 높아집니다. 기존 훈련 방법은 비효율적이고 조밀한 행렬에 의존하며 많은 양의 메모리와 컴퓨팅 성능이 필요합니다. 일부 기존 방법은 이러한 문제를 완화하려고 시도하지만 실제 적용에는 여전히 한계가 있습니다. 따라서 성능 저하 없이 메모리 사용량, 계산 비용, 훈련 시간을 동시에 줄일 수 있는 접근 방식을 개발하는 것이 중요합니다.
대형 AI 모델(예: Transformers 및 언어 모델)을 교육하는 것은 AI 분야에서 없어서는 안 될 핵심 링크가 되었지만 높은 컴퓨팅 비용, 메모리 소비 및 에너지 요구 사항에도 직면해 있습니다. 예를 들어 OpenAI의 GPT-3에는 1,750억 개의 매개변수가 있으며 몇 주간의 GPU 교육이 필요합니다. 이러한 막대한 리소스 요구 사항으로 인해 이 기술의 적용이 컴퓨팅 리소스가 풍부한 대규모 조직에 제한되는 동시에 에너지 효율성과 환경에 미치는 영향에 대한 우려도 가중됩니다. 이러한 문제를 해결하는 것은 AI 개발의 더 넓은 접근성과 지속 가능성을 보장하는 데 중요합니다.
기존 교육 방식은 비효율적이며 혁신적인 솔루션이 시급히 필요합니다.
CoMERA 프레임워크: 적응형 텐서 최적화를 통한 효율적인 교육
CoMERA의 기반은 모델 계층이 리소스 제약 조건에 따라 순위를 동적으로 조정할 수 있도록 하는 적응형 텐서 표현입니다. 텐서 랭크를 수정함으로써 프레임워크는 신경망의 작동 무결성을 손상시키지 않고 압축을 가능하게 합니다. 이러한 동적 최적화는 2단계 교육 프로세스를 통해 달성됩니다.
초기 단계: 안정적인 수렴에 중점을 둡니다.
이후 단계: 특정 압축 목표를 달성하기 위해 순위를 미세 조정합니다.
6인코더 Transformer 모델에서 CoMERA는 초기 단계에서 최대 43x의 압축률을 달성했으며 이후 최적화 단계에서는 361x의 훨씬 더 높은 압축률을 달성했습니다. 또한 GaLore에 비해 메모리 소모를 9배 줄이고 라운드당 훈련 속도를 2~3배 향상시킵니다.
다수의 테스트 결과 CoMERA의 성능이 우수한 것으로 나타났습니다.
MNLI 데이터 세트에서 훈련된 Transformer 모델에 적용하면 CoMERA는 정확도를 유지하면서 모델 크기를 256MB에서 3.2MB까지 줄입니다. DLRM과 같은 대규모 추천 시스템에서 CoMERA는 모델을 99배까지 압축하고 최대 메모리 사용량을 7배까지 줄입니다. 또한 프레임워크는 도메인별 대규모 언어 모델인 사전 훈련 CodeBERT에서도 좋은 성능을 발휘하여 전체 압축 비율 4.23배를 달성하고 일부 훈련 단계에서 2배의 속도 향상을 달성했습니다. 이러한 결과는 다양한 작업과 아키텍처를 처리하는 능력을 강조하여 다양한 분야로의 적용 가능성을 확장합니다.
CoMERA 프레임워크의 주요 이점 요약
본 연구의 주요 결론은 다음과 같다.
CoMERA는 특정 레이어에 대해 최대 361x, 전체 모델에 대해 99x의 압축률을 달성하여 스토리지 및 메모리 요구 사항을 크게 줄입니다.
이 프레임워크는 각 라운드의 Transformer 및 추천 시스템의 훈련 시간을 2~3배 단축하여 컴퓨팅 리소스와 시간을 절약합니다.
CoMERA는 텐서화된 표현과 CUDA 그래프를 사용하여 최대 메모리 소비를 7배까지 줄여 더 작은 GPU에서도 훈련이 가능합니다.
CoMERA의 접근 방식은 정확성을 유지하거나 향상시키면서 Transformers 및 대규모 언어 모델을 포함한 여러 아키텍처를 지원합니다.
CoMERA는 교육에 필요한 에너지와 리소스를 줄여 보다 지속 가능한 AI 실행을 지원하고 더 많은 청중이 최첨단 모델을 사용할 수 있도록 지원합니다.
전체적으로 CoMERA 프레임워크는 대규모 AI 모델을 효율적으로 훈련하기 위한 획기적인 솔루션을 제공합니다. 이를 통해 모델 정확도를 유지하면서 적응형 텐서 최적화를 통해 계산 비용과 메모리 요구 사항을 크게 줄일 수 있습니다. 이 연구는 AI 분야의 지속적인 발전과 폭넓은 접근성에 중요한 기여를 합니다.