Apple은 최근 메모리가 제한된 장치에서 대규모 언어 모델의 효율성을 크게 향상시키는 연구 결과를 발표했습니다. 본 연구에서는 모델 매개변수를 플래시 메모리에 영리하게 저장하고 필요할 때 필요할 때 DRAM에 로드하여 메모리 병목 현상 문제를 효과적으로 해결하고 일련의 최적화 전략을 통해 추론 속도를 크게 향상시켰습니다. 이러한 기술적 혁신은 모바일 장치 및 임베디드 시스템과 같이 리소스가 제한된 환경에서 대규모 언어 모델을 적용할 수 있는 길을 열었으며 중요한 실무적 의미를 갖습니다.
Apple의 최신 연구에 따르면 장치 메모리가 제한되어 있을 때 모델 매개변수를 플래시 메모리에 저장하고 추론 중에 필요에 따라 DRAM에 로드함으로써 대규모 언어 모델의 작동 효율성이 성공적으로 향상되었으며 추론 속도가 25배 증가한 것으로 나타났습니다. . 이 방법은 추론 비용 모델을 최적화하고, 데이터 전송량을 줄이며, 윈도잉 전략과 행-열 번들링 기술을 도입하여 메모리 용량이 제한된 장치에서 사용 가능한 DRAM 용량보다 2배 더 큰 모델을 실행할 수 있게 해줍니다. 순진 로딩 방법과 비교하여 CPU와 GPU의 추론 속도는 각각 4~5배, 20~25배 증가하는 동시에 희소 인식, 상황 적응 로딩 및 하드웨어 중심 설계를 결합하여 메모리가 제한된 장치에서 대규모 언어 모델을 추론하여 새로운 가능성을 가져옵니다. 자세한 논문은 [여기](https://arxiv.org/pdf/2312.11514.pdf)에서 확인할 수 있습니다.이번 연구 결과는 속도가 크게 향상되었을 뿐만 아니라, 더 중요한 것은 더 넓은 범위의 장치에 대규모 언어 모델을 적용할 수 있는 가능성을 제공하여 앞으로 AI 기술이 더욱 대중화되고 편리해질 것임을 시사합니다. Apple의 이러한 혁신은 AI 분야 발전에 새로운 방향을 제시합니다.