近日,SemiAnalysis 發布報告,指出AMD新一代AI晶片MI300X的軟體有嚴重缺陷,導致其效能無法充分發揮,無法有效挑戰Nvidia在AI晶片市場的霸主地位。該報告基於為期五個月的深入調查,揭示了AMD在軟體生態建設上的不足,並對AMD未來的發展提出了建議。
近日,科技分析機構SemiAnalysis 發布了一項為期五個月的調查報告,揭示了AMD 最新推出的MI300X AI 晶片在軟體方面存在重大問題,導致其無法發揮應有的性能,因而在AI 晶片市場中無法挑戰Nvidia 的主導地位。
報告指出,AMD 的軟體存在大量漏洞,導致AI 模型訓練幾乎不可能,使用者需要耗費大量時間進行除錯。同時,Nvidia 持續推出新的功能、函式庫以及效能更新,進一步擴大了兩者之間的差距。分析人員進行了大量測試,包括GEMM 基準測試和單節點訓練,結果顯示AMD 始終無法克服所謂的「CUDA 護城河」—— 即Nvidia 在軟體方面的強大優勢。
從硬體規格來看,MI300X 的效能資料相當搶眼,FP16運算能力達到1307TeraFLOPS,配備192GB 的HBM3記憶體。而相較之下,Nvidia 的H100為989TeraFLOPS 和80GB 內存,儘管Nvidia 最新的H200在內存方面縮小了這一差距,提供了141GB 的配置。值得一提的是,AMD 系統在總擁有成本方面具有優勢,價格更低且乙太網路更為實惠。
然而,這些硬體優勢在實際使用上並未帶來應有的效果。 SemiAnalysis 將這種現象形容為“僅通過像素數量來比較相機”,暗示AMD 在數字遊戲中迷失,而未能提供足夠的實際性能。為了獲得可用的基準結果,分析師必須與AMD 工程師直接合作,解決了多個軟體漏洞,反觀Nvidia 的系統則可以直接使用,無需額外調整。
報告中也提到,AMD 最大的GPU 雲端服務供應商Tensorwave 甚至必須向AMD 團隊免費提供自己購買的GPU,以協助解決軟體問題。為此,SemiAnalysis 建議AMD 執行長蘇姿豐需要加大對軟體開發和測試的投資,尤其是分配大量MI300X 晶片進行自動化測試,簡化複雜的環境變量,並改善預設設置,以提升出廠體驗。
儘管SemiAnalysis 希望AMD 能成為Nvidia 的有力競爭者,但他們也表示「可惜還有很多工作要做」。如果不對軟體進行重大改進,AMD 將面臨進一步落後的風險,尤其是在Nvidia 準備推出下一代Blackwell 晶片的情況下,儘管也有報告指出Nvidia 的下一代產品推出並非一帆風順。
劃重點:
AMD MI300X AI 晶片面臨嚴重的軟體問題,導致AI 模型訓練變得困難。
Nvidia 憑藉強大的CUDA 平台持續擴展市場優勢,軟體更新頻繁。
SemiAnalysis 建議AMD 加大軟體開發投資,改善使用者體驗以提升競爭力。
總而言之,報告清楚指出了AMD MI300X晶片在軟體方面面臨的巨大挑戰,以及AMD需要改進的方向。能否克服軟體方面的“護城河”,將直接決定AMD在未來AI晶片市場競爭中的成敗。