최근 MLCommons는 MLPerf 추론 v4.1의 결과를 발표했는데, 여러 AI 추론 칩 제조업체가 참여해 경쟁이 치열했습니다. 이번 대회에는 처음으로 AMD, Google, UntetherAI 및 기타 제조업체의 칩과 Nvidia의 최신 Blackwell 칩이 포함됩니다. 성능 비교와 더불어 에너지 효율성도 중요한 경쟁 요소가 되었습니다. 다양한 제조업체가 다양한 벤치마크 테스트에서 특별한 기술을 선보이고 각자의 장점을 입증하여 AI 추론 칩 시장에 새로운 활력을 불어넣었습니다.
인공지능 훈련 분야에서는 엔비디아의 그래픽카드가 거의 독보적이지만, AI 추론에 있어서는 특히 에너지 효율성 측면에서 경쟁업체들이 따라잡기 시작한 것으로 보인다. Nvidia의 최신 Blackwell 칩의 강력한 성능에도 불구하고 선두를 유지할 수 있을지는 불분명합니다. 오늘 ML Commons는 최신 AI 추론 대회인 MLPerf Inference v4.1의 결과를 발표했습니다. 처음으로 AMD의 Instinct 가속기, Google의 Trillium 가속기, 캐나다 스타트업 UntetherAI의 칩, Nvidia의 Blackwell 칩이 참여합니다. 다른 두 회사인 Cerebras와 FuriosaAI는 새로운 추론 칩을 출시했지만 테스트를 위해 MLPerf를 제출하지 않았습니다.
MLPerf는 여러 이벤트와 하위 이벤트가 포함된 올림픽 대회처럼 구성됩니다. "데이터 센터 인클로저" 카테고리가 가장 많은 항목을 차지했습니다. 공개 카테고리와 달리 비공개 카테고리에서는 참가자가 소프트웨어를 크게 수정하지 않고 주어진 모델에 대해 직접 추론을 수행해야 합니다. 데이터 센터 카테고리는 주로 요청을 일괄 처리하는 능력을 테스트하는 반면, 엣지 카테고리는 대기 시간 단축에 중점을 둡니다.
각 카테고리에는 인기 있는 이미지 생성(Midjourney를 생각해 보세요)과 대규모 언어 모델을 사용한 질문 답변(ChatGPT 등)을 포함한 다양한 AI 작업을 다루는 9가지 벤치마크가 있으며, 다음과 같이 중요하지만 잘 알려지지 않은 작업도 있습니다. 이미지 분류, 객체 감지 및 추천 엔진.
이번 라운드에서는 "전문 하이브리드 모델"이라는 새로운 벤치마크가 추가되었습니다. 이는 언어 모델을 일상 대화, 수학 문제 해결 또는 프로그래밍 지원과 같은 특정 작업에 맞게 각각 미세 조정된 여러 개의 독립적인 작은 모델로 분할하는 언어 모델 배포에서 점점 더 널리 사용되는 방법입니다. AMD의 수석 기술 직원인 Miroslav Hodak은 각 쿼리를 해당 소형 모델에 할당함으로써 리소스 활용도가 감소하고 비용이 절감되며 처리량이 증가한다고 말했습니다.
인기 있는 "데이터 센터 폐쇄형" 벤치마크에서 우승한 제품은 여전히 GPU와 CPU를 하나의 패키지에 결합한 Nvidia H200 GPU 및 GH200 슈퍼칩을 기반으로 한 제품입니다. 그러나 결과를 자세히 살펴보면 몇 가지 흥미로운 세부 사항이 드러납니다. 일부 경쟁업체는 여러 개의 가속기를 사용했지만 일부 경쟁업체는 하나만 사용했습니다. 가속기 수를 기준으로 초당 쿼리를 정규화하고 각 가속기 유형에 대해 최고 성능의 제출을 유지하면 결과가 더욱 혼란스러워집니다. 이 접근 방식은 CPU와 상호 연결의 역할을 무시한다는 점에 유의해야 합니다.
가속기별로 Nvidia의 Blackwell은 대규모 언어 모델 질문 및 답변 작업에서 탁월한 성능을 발휘하여 제출한 유일한 벤치마크인 이전 칩 반복보다 2.5배 빠른 속도를 제공했습니다. Untether AI의 speedAI240 미리보기 칩은 제출된 유일한 이미지 인식 작업에서 H200과 거의 비슷한 성능을 보였습니다. Google의 Trillium은 이미지 생성 작업에서 H100 및 H200보다 약간 낮은 성능을 발휘하는 반면 AMD의 Instinct는 대규모 언어 모델 질문 및 답변 작업에서 H100과 동등한 성능을 발휘합니다.
Blackwell의 성공의 일부는 4비트 부동 소수점 정밀도를 사용하여 대규모 언어 모델을 실행할 수 있는 능력에서 비롯됩니다. Nvidia와 경쟁업체는 계산 속도를 높이기 위해 ChatGPT와 같은 변환 모델에 표시되는 비트 수를 줄이기 위해 노력해 왔습니다. Nvidia는 H100에 8비트 수학을 도입했으며, 이번 제출은 MLPerf 벤치마크에서 4비트 수학의 첫 번째 시연입니다.
Nvidia의 제품 마케팅 이사인 Dave Salvator는 이렇게 정밀도가 낮은 숫자로 작업할 때 가장 큰 과제는 정확성을 유지하는 것이라고 말했습니다. MLPerf 제출의 높은 정확성을 유지하기 위해 Nvidia 팀은 소프트웨어에 수많은 혁신을 이루었습니다.
또한 Blackwell의 메모리 대역폭은 H200의 4.8TB에 비해 거의 두 배인 초당 8TB입니다.
Nvidia의 Blackwell 제출물은 단일 칩을 사용하지만 Salvator는 이 칩이 네트워킹 및 확장을 위해 설계되었으며 Nvidia의 NVLink 상호 연결과 결합될 때 최고의 성능을 발휘할 것이라고 말합니다. Blackwell GPU는 초당 최대 18개의 NVLink 100GB 연결을 지원하며 총 대역폭은 초당 1.8테라바이트로 H100 상호 연결 대역폭의 거의 두 배입니다.
Salvator는 대규모 언어 모델이 계속해서 확장됨에 따라 추론에도 수요를 충족하려면 다중 GPU 플랫폼이 필요하다고 믿으며 Blackwell은 이러한 상황에 맞게 설계되었습니다. Salvator는 “Havel은 플랫폼입니다.
Nvidia는 Blackwell 칩 시스템을 Preview 하위 카테고리에 제출했습니다. 즉, 아직 사용할 수는 없지만 지금으로부터 약 6개월 후인 다음 MLPerf 릴리스 이전에 사용할 수 있을 것으로 예상됩니다.
각 벤치마크에서 MLPerf에는 작업을 수행하는 동안 각 시스템의 실제 전력 소비를 체계적으로 테스트하는 에너지 측정 섹션도 포함되어 있습니다. 이번 라운드의 주요 경쟁(데이터 센터 폐쇄형 에너지 카테고리)에는 Nvidia와 Untether AI라는 두 명의 제출자만 있었습니다. Nvidia는 모든 벤치마크에 참여한 반면 Untether는 이미지 인식 작업에 대한 결과만 제출했습니다.
Untether AI는 이러한 점에서 탁월하여 뛰어난 에너지 효율성을 성공적으로 달성했습니다. 그들의 칩은 "인 메모리 컴퓨팅"이라는 접근 방식을 사용합니다. Untether AI의 칩은 근처에 작은 프로세서가 있는 메모리 셀 뱅크로 구성됩니다. 각 프로세서는 병렬로 작동하여 인접한 메모리 장치와 동시에 데이터를 처리하므로 메모리와 컴퓨팅 코어 간에 모델 데이터를 전송하는 데 소요되는 시간과 에너지가 크게 줄어듭니다.
Untether AI의 제품 담당 부사장인 Robert Beachler는 “AI 워크로드를 실행할 때 에너지 소비의 90%가 DRAM에서 캐시 처리 장치로 데이터를 이동하는 데 사용된다는 사실을 발견했습니다.”라고 말했습니다. "그래서 Untether가 하는 일은 데이터를 컴퓨팅 장치로 이동하는 것이 아니라 데이터에 더 가깝게 계산을 이동하는 것입니다."
이 접근 방식은 MLPerf의 또 다른 하위 범주인 에지 폐쇄에서 특히 잘 작동합니다. 이 카테고리는 에너지 효율성과 빠른 처리에 대한 엄격한 요구 사항이 있는 공장의 기계 검사, 가이드 비전 로봇, 자율 주행 차량과 같은 보다 실용적인 사용 사례에 중점을 두고 있다고 Beachler는 설명했습니다.
이미지 인식 작업에서는 언테더 AI의 speedAI240 프리뷰 칩의 레이턴시 성능이 엔비디아 L40S보다 2.8배 빠르고, 처리량(초당 샘플 수)도 1.6배 향상됐다. 스타트업도 이 카테고리의 전력 소비 결과를 제출했지만, Nvidia의 경쟁사는 제출하지 않아 직접적인 비교가 어려웠습니다. 하지만 언테더 AI의 speedAI240 프리뷰 칩은 공칭 전력 소모가 150와트인 반면, 엔비디아의 L40S는 350와트로 전력 소모가 2.3배 더 뛰어나고 대기 시간 성능도 더 좋아졌다.
Cerebras와 Furiosa는 MLPerf에 참여하지 않았지만 각각 새로운 칩도 출시했습니다. Cerebras는 스탠포드 대학에서 열린 IEEE Hot Chips 컨퍼런스에서 추론 서비스를 공개했습니다. 캘리포니아 주 서니 밸리에 본사를 둔 Cerebras는 실리콘 웨이퍼가 허용하는 크기의 거대한 칩을 제조하므로 칩 간의 상호 연결을 피하고 장치의 메모리 대역폭을 크게 늘리는 데 주로 사용됩니다. 이제 그들은 추론을 지원하기 위해 최신 컴퓨터인 CS3를 업그레이드했습니다.
Cerebras는 MLPerf를 제출하지 않았지만 자사 플랫폼이 초당 생성되는 LLM 토큰 수에서 H100보다 7배, 경쟁 Groq 칩보다 2배 뛰어난 성능을 발휘한다고 주장합니다. Cerebras의 CEO이자 공동 창업자인 Andrew Feldman은 "오늘날 우리는 생성 AI의 전화 접속 시대에 있습니다."라고 말했습니다. "이것은 모두 메모리 대역폭 병목 현상이 있기 때문입니다. Nvidia의 H100이든 AMD의 MI300이든 TPU이든 모두 동일한 외부 메모리를 사용하므로 동일한 제한이 발생합니다. 우리는 웨이퍼 수준 설계에서 작업을 수행하기 때문에 이러한 장벽을 무너뜨립니다. "
Hot Chips 컨퍼런스에서 서울의 Furiosa는 2세대 칩 RNGD("반란군"으로 발음)도 시연했습니다. Furiosa의 새로운 칩은 TCP(Tensor Contraction Processor) 아키텍처를 갖추고 있습니다. AI 워크로드에서 기본 수학 함수는 행렬 곱셈이며, 하드웨어에서 기본 요소로 구현되는 경우가 많습니다. 그러나 행렬의 크기와 모양, 즉 더 넓은 텐서는 크게 달라질 수 있습니다. RNGD는 보다 일반적인 텐서 곱셈을 기본 요소로 구현합니다. Furiosa의 설립자이자 CEO인 June Paik은 Hot Chips에서 “추론 중에 배치 크기가 크게 달라지므로 주어진 텐서 형태의 고유한 병렬성과 데이터 재사용을 최대한 활용하는 것이 중요합니다.”라고 말했습니다.
Furiosa에는 MLPerf가 없지만 내부 테스트에서 RNGD 칩을 MLPerf의 LLM 요약 벤치마크와 비교한 결과 Nvidia의 L40S 칩과 비슷했지만 L40S의 320W에 비해 185W만 소비했습니다. 백남준은 추가적인 소프트웨어 최적화를 통해 성능이 향상될 것이라고 말했다.
IBM은 또한 기업이 AI 워크로드를 생성할 수 있도록 설계된 새로운 Spyre 칩 출시를 발표했으며 2025년 1분기에 출시될 예정입니다.
분명히, AI 추론 칩 시장은 가까운 미래에도 분주할 것입니다.
참조: https://spectrum.ieee.org/new-inference-chips
전체적으로 MLPerf v4.1의 결과는 AI 추론 칩 시장 경쟁이 점점 치열해지고 있음을 보여줍니다. 비록 Nvidia가 여전히 선두를 유지하고 있지만 AMD, Google, Untether AI와 같은 제조업체의 부상은 무시할 수 없습니다. 미래에는 에너지 효율성이 주요 경쟁 요소가 될 것이며, 인메모리 컴퓨팅과 같은 신기술도 중요한 역할을 할 것입니다. 다양한 제조업체의 기술 혁신은 계속해서 AI 추론 능력의 향상을 촉진하고 AI 애플리케이션의 대중화 및 개발을 위한 강력한 추진력을 제공할 것입니다.