최근 SemiAnalytics는 AMD의 차세대 AI 칩 MI300X의 소프트웨어에 심각한 결함이 있어 성능이 완전히 구현되지 못하고 AI 칩 시장에서 Nvidia의 지배력에 효과적으로 도전할 수 없다는 보고서를 발표했습니다. 5개월 간의 심층 조사를 바탕으로 작성된 이 보고서는 소프트웨어 생태계 구축에 있어서 AMD의 단점을 밝히고 AMD의 향후 개발을 위한 권장 사항을 제시합니다.
최근 기술 분석 기관인 세미애널리시스(SemiAnalytics)는 5개월간 조사 보고서를 발표해 AMD의 최신 MI300X AI 칩에 심각한 소프트웨어 문제가 있어 제대로 작동하지 못하고 AI 칩 시장에서 경쟁할 수 없다는 사실을 밝혔다. . Nvidia의 지배력에 도전합니다.
보고서는 AMD의 소프트웨어에 수많은 취약점이 포함되어 있어 AI 모델 훈련이 거의 불가능하고 사용자가 디버깅에 많은 시간을 소비해야 한다고 지적했습니다. 한편, Nvidia는 둘 사이의 격차를 더욱 확대하는 새로운 기능, 라이브러리 및 성능 업데이트를 계속 출시하고 있습니다. 분석가들은 GEMM 벤치마크 및 단일 노드 교육을 포함한 광범위한 테스트를 수행했으며 그 결과 AMD는 소프트웨어 분야에서 Nvidia의 강력한 이점인 소위 "CUDA 해자"를 극복하지 못한 것으로 나타났습니다.
하드웨어 사양 측면에서 볼 때 MI300X의 성능 데이터는 상당히 눈길을 끕니다. FP16 컴퓨팅 성능은 1307TeraFLOPS에 달하며 192GB HBM3 메모리가 탑재되어 있습니다. 이에 비해 Nvidia의 H100은 989 TeraFLOPS와 80GB 메모리를 갖추고 있지만 Nvidia의 최신 H200은 141GB 구성을 제공하여 메모리 측면에서 격차를 줄였습니다. AMD 시스템은 더 낮은 가격과 더 저렴한 이더넷 네트워크를 통해 총 소유 비용 측면에서 이점을 제공한다는 점을 언급할 가치가 있습니다.
그러나 이러한 하드웨어 장점은 실제 사용에서 원하는 결과를 가져오지 않습니다. SemiAnalytic은 이 현상을 "픽셀 수만으로 카메라를 비교하는 것"으로 설명하며, 이는 AMD가 숫자 게임에서 길을 잃고 충분한 실제 성능을 제공하지 못하고 있음을 시사합니다. 유용한 벤치마크 결과를 얻기 위해 분석가는 AMD 엔지니어와 직접 협력하여 여러 소프트웨어 취약점을 해결해야 했지만 Nvidia의 시스템은 추가 조정 없이 사용할 준비가 되어 있었습니다.
보고서는 또한 AMD의 최대 GPU 클라우드 서비스 제공업체인 Tensorwave가 소프트웨어 문제 해결을 돕기 위해 자체 구매한 GPU를 AMD 팀에 무료로 제공해야 했다고 언급했습니다. 이를 위해 SemiAnalytics는 AMD CEO Su Zifeng이 소프트웨어 개발 및 테스트에 대한 투자를 늘려야 하며, 특히 자동화된 테스트를 위해 대량의 MI300X 칩을 할당하고, 복잡한 환경 변수를 단순화하며, 공장 경험을 향상시키기 위해 기본 설정을 개선해야 한다고 제안했습니다.
세미애널리시스는 AMD가 엔비디아의 강력한 경쟁자가 될 수 있기를 희망하면서도 "안타깝게도 아직 해야 할 일이 많다"고도 말했다. 주요 소프트웨어 개선이 없으면 AMD는 특히 Nvidia가 차세대 Blackwell 칩 출시를 준비하면서 더욱 뒤쳐질 위험이 있습니다. 하지만 Nvidia의 차세대 제품 출시가 순조롭게 진행되지 않을 것이라는 보고도 있습니다.
하이라이트:
AMD MI300X AI 칩은 심각한 소프트웨어 문제에 직면해 AI 모델 훈련을 어렵게 만듭니다.
Nvidia는 강력한 CUDA 플랫폼과 빈번한 소프트웨어 업데이트를 통해 시장 우위를 계속 확장하고 있습니다.
SemiAnalytic은 AMD가 소프트웨어 개발에 대한 투자를 늘리고 사용자 경험을 개선하여 경쟁력을 강화할 것을 권장합니다.
전체적으로 보고서는 AMD의 MI300X 칩이 직면한 거대한 소프트웨어 과제와 AMD가 개선해야 할 방향을 명확하게 지적합니다. 소프트웨어의 "해자"를 극복할 수 있는지 여부는 향후 AI 칩 시장 경쟁에서 AMD의 성공 또는 실패를 직접적으로 결정할 것입니다.