인공 지능 기술의 빠른 개발로 인해 엔터프라이즈 애플리케이션에서 대형 언어 모델 (LLM)의 중요성이 점점 더 두드러지고 있습니다. 그러나 이러한 모델의 지식 정확도를 향상시키고 그들이 생산하는 환각을 줄이는 방법은 현재 AI 필드에서 시급히 해결 해야하는 핵심 문제가되었습니다. 이러한 배경에서 Meta AI의 연구팀은 혁신적인 솔루션 인 "확장 가능한 메모리 계층"을 제안 하여이 도전에 새로운 조명을 가져 왔습니다.
확장 가능한 메모리 계층의 설계 개념은 추론 컴퓨팅 리소스를 추가하지 않고 더 많은 매개 변수를 추가하여 LLM의 학습 능력을 향상시키는 것을 목표로합니다. 이 아키텍처는 효율적인 추론 속도를 유지하면서 언어 모델의 성능을 향상시키는 새로운 방법을 열어주는 대규모 사실 지식이 필요한 응용 시나리오에 특히 적합합니다.
전통적인 언어 모델은 종종 "집중적 인 계층"을 사용하여 정보를 인코딩하지만 복잡한 기능을 처리 할 때는 잘 작동합니다. 대조적으로, 메모리 층은보다 효율적인 희소 활성화 및 키 가치 검색 메커니즘을 채택하여 낮은 계산 비용으로 지식의 인코딩 및 검색을 가능하게합니다. 메모리 사용 측면에서 밀도가 높은 계층보다 약간 높지만 소수의 매개 변수 만 활성화하면 컴퓨팅 효율이 크게 향상됩니다.
메모리 계층의 개념은 수년 동안 존재 해 왔지만 현대 딥 러닝 아키텍처에서의 적용은 비교적 제한적이며, 주로 현재 하드웨어 가속기에 완전히 적응할 수 없었기 때문입니다. 고급 LLM은 현재 일반적으로 "전문가 하이브리드"아키텍처를 채택하고 있으며, 이는 일부 측면에서 메모리 계층과 유사하게 특정 모듈의 전문화를 강조합니다.
메모리 사용에서 메모리 계층의 문제를 극복하기 위해 Meta의 연구팀은 몇 가지 혁신적인 개선을 해왔습니다. 그들은 메모리 레이어를위한 병렬 아키텍처를 설계하여 모델을 속도로 유지하면서 수백만 개의 키 값 쌍을 여러 GPU에 저장할 수 있습니다. 또한이 팀은 높은 메모리 대역폭 작업을 처리하기위한 특수 CUDA 코어를 개발하고 매개 변수 공유 메커니즘을 도입하여 여러 메모리 계층이 동일한 메모리 매개 변수 세트를 공유하여 리소스 사용 효율성을 더욱 최적화 할 수 있습니다.
연구팀은 LLAMA 모델의 변환을 통해 일부 조밀 한 계층을 공유 메모리로 바꾸어 메모리 향상 모델에 대한 포괄적 인 테스트를 수행했습니다. 실험 결과에 따르면 메모리 모델은 여러 작업, 특히 사실상의 지식이 필요한 작업에서 잘 작동합니다.
이 연구는 차세대 AI 아키텍처의 개발 방향을 지적합니다. 메타 연구자들은 메모리 계층을 미래의 AI 시스템에 통합하여 모델의 건망증과 환각 현상을 효과적으로 줄이는 것이 좋습니다. 기술의 지속적인 발전으로 확장 가능한 메모리 계층은 언어 모델의 성능을 향상시키는 데 더 중요한 역할을 수행하여 AI 기술의 실제 적용에 혁신적인 변화를 가져올 것으로 예상됩니다.