모바일 장치와 스마트 홈이 점점 더 대중화되는 시대에 대규모 언어 모델(LLM)을 효율적으로 실행하는 것이 시급한 요구 사항이 되었습니다. 그러나 엣지 디바이스의 제한된 컴퓨팅 리소스와 메모리로 인해 병목 현상이 발생합니다. 이 기사에서는 룩업 테이블 기반 방법인 T-MAC 기술을 소개합니다. 이 기술은 엣지 디바이스에서 낮은 비트 LLM의 운영 효율성을 크게 향상시켜 스마트 디바이스에 더욱 강력한 지능형 처리 기능을 제공함으로써 보다 편리하고 효율적인 스마트 사용자를 달성할 수 있습니다. 경험.
스마트 장치가 어디에나 있는 이 시대에 우리는 휴대폰, 태블릿, 심지어 스마트 홈 장치에도 더욱 강력한 지능형 처리 기능을 제공하기 위해 노력하고 있습니다. 그러나 이러한 에지 장치에는 하드웨어 리소스, 특히 메모리 및 컴퓨팅 성능이 제한되어 있어 대규모 언어 모델(LLM)의 배포 및 실행이 제한됩니다. 자연어를 이해하고, 질문에 답하고, 창조까지 할 수 있는 강력한 모델을 이러한 장치에 장착할 수 있다면 세상이 어떻게 바뀔지 상상해 보세요.
이것이 T-MAC 기술 탄생의 배경이다. Table-Lookup-based MAC의 전체 이름인 T-MAC는 룩업 테이블 기반 방법으로, 대규모 저비트 언어 모델을 CPU에서 효율적으로 실행하여 엣지 장치에서 지능적인 업그레이드를 수행할 수 있습니다.
대규모 언어 모델에는 수십억 또는 수백억 개의 매개변수가 포함되는 경우가 많으며 이를 저장하려면 많은 양의 메모리가 필요합니다. 이러한 모델을 에지 장치에 배포하려면 모델의 가중치를 양자화해야 합니다. 즉, 가중치를 표시하는 데 더 적은 비트를 사용하여 모델의 메모리 공간을 줄여야 합니다. 그러나 양자화된 모델은 작동 중에 혼합 정밀도 행렬 곱셈(mpGEMM)이 필요하며 이는 기존 하드웨어 및 소프트웨어 시스템에서는 일반적이지 않으며 효율적인 지원이 부족합니다.
T-MAC의 핵심 아이디어는 기존의 데이터 유형 기반 곱셈 연산을 비트 기반 LUT(Lookup Table) 조회로 변환하는 것입니다. 이 방법은 곱셈 연산을 제거할 뿐만 아니라 덧셈 연산도 줄여 연산 효율성을 크게 향상시킵니다.
구체적으로 T-MAC은 다음 단계를 통해 구현됩니다.
가중치 행렬을 여러 개의 1비트 행렬로 분해합니다.
가능한 모든 1비트 패턴을 사용하여 활성화 벡터의 곱을 미리 계산하고 결과를 조회 테이블에 저장합니다.
추론하는 동안 룩업 테이블 인덱스와 누적 연산을 통해 최종 행렬 곱셈 결과를 빠르게 얻습니다.
다양한 에지 장치에 대한 테스트를 통해 T-MAC는 상당한 성능 이점을 보여주었습니다. 기존 llama.cpp 구현과 비교하여 T-MAC은 처리량을 4배 향상시키고 에너지 소비를 70% 줄입니다. 이를 통해 Raspberry Pi5와 같은 저가형 장치에서도 평균 성인 읽기 속도보다 빠르게 토큰을 생성할 수 있습니다.
T-MAC은 이론적 장점뿐만 아니라 실제 적용 가능성도 가지고 있습니다. 스마트폰에서 실시간 음성 인식 및 자연어 처리를 수행하든, 스마트 홈 장치에서 보다 지능적인 대화형 경험을 제공하든, T-MAC는 중요한 역할을 할 수 있습니다.
T-MAC 기술은 에지 장치에 낮은 비트의 대규모 언어 모델을 배포하기 위한 효율적이고 에너지 절약적인 솔루션을 제공합니다. 이는 장치의 지능 수준을 향상시킬 뿐만 아니라 사용자에게 더욱 풍부하고 편리한 지능형 경험을 제공합니다. 지속적인 기술 개발과 최적화를 통해 T-MAC이 엣지 인텔리전스 분야에서 점점 더 중요한 역할을 할 것이라고 믿을 수 있는 이유가 있습니다.
오픈소스 주소: https://github.com/microsoft/T-MAC
논문 주소: https://www.arxiv.org/pdf/2407.00088
T-MAC 기술의 출현은 에지 컴퓨팅 분야에서 새로운 혁신을 가져왔습니다. 높은 효율성과 에너지 절약으로 인해 다양한 스마트 장치에 대한 광범위한 응용 가능성이 있습니다. 앞으로도 T-MAC은 더욱 발전하여 더욱 스마트하고 편리한 세상을 만드는 데 기여할 것이라 믿습니다.