เมื่อเร็ว ๆ นี้ SemiAnalysis เผยแพร่รายงานระบุว่ามีข้อบกพร่องร้ายแรงในซอฟต์แวร์ของชิป AI รุ่นใหม่ของ AMD MI300X ซึ่งทำให้ประสิทธิภาพของชิปไม่สามารถรับรู้ได้อย่างเต็มที่และไม่สามารถท้าทายการครอบงำของ Nvidia ในตลาดชิป AI ได้อย่างมีประสิทธิภาพ รายงานนี้อิงจากการตรวจสอบเชิงลึกระยะเวลาห้าเดือน เผยให้เห็นข้อบกพร่องของ AMD ในการสร้างระบบนิเวศซอฟต์แวร์ และให้คำแนะนำสำหรับการพัฒนาในอนาคตของ AMD
ล่าสุดหน่วยงานวิเคราะห์เทคโนโลยี SemiAnalysis ได้ออกรายงานการสอบสวนระยะเวลา 5 เดือน เปิดเผยว่าชิป MI300X AI ล่าสุดของ AMD มีปัญหาด้านซอฟต์แวร์ที่สำคัญทำให้ไม่สามารถทำงานได้อย่างที่ควรจะเป็นจึงไม่สามารถแข่งขันในตลาดชิป AI ได้ . การครอบงำที่ท้าทายของ Nvidia
รายงานชี้ให้เห็นว่าซอฟต์แวร์ของ AMD มีช่องโหว่จำนวนมาก ทำให้การฝึกอบรมโมเดล AI แทบจะเป็นไปไม่ได้เลย และผู้ใช้ต้องใช้เวลามากในการแก้ไขข้อบกพร่อง ในขณะเดียวกัน Nvidia ยังคงเปิดตัวฟีเจอร์ ไลบรารี และการอัปเดตประสิทธิภาพใหม่ๆ อย่างต่อเนื่อง ซึ่งจะขยายช่องว่างระหว่างทั้งสองให้กว้างขึ้น นักวิเคราะห์ได้ทำการทดสอบอย่างกว้างขวาง รวมถึงการวัดประสิทธิภาพ GEMM และการฝึกอบรมโหนดเดียว และผลลัพธ์ที่ได้แสดงให้เห็นว่า AMD ไม่สามารถเอาชนะสิ่งที่เรียกว่า "CUDA moat" ซึ่งก็คือข้อได้เปรียบอันแข็งแกร่งของ Nvidia ในด้านซอฟต์แวร์
จากมุมมองของข้อกำหนดฮาร์ดแวร์ ข้อมูลประสิทธิภาพของ MI300X ค่อนข้างสะดุดตา พลังการประมวลผลของ FP16 สูงถึง 1307TeraFLOPS และติดตั้งหน่วยความจำ HBM3 ขนาด 192GB จากการเปรียบเทียบ H100 ของ Nvidia มี 989 TeraFLOPS และหน่วยความจำ 80GB แม้ว่า H200 ล่าสุดของ Nvidia จะปิดช่องว่างในแง่ของหน่วยความจำ โดยมีการกำหนดค่า 141GB เป็นที่น่าสังเกตว่าระบบของ AMD มีข้อได้เปรียบในแง่ของต้นทุนรวมในการเป็นเจ้าของ ด้วยราคาที่ต่ำกว่าและเครือข่ายอีเธอร์เน็ตที่ราคาไม่แพงกว่า
อย่างไรก็ตาม ข้อดีของฮาร์ดแวร์เหล่านี้ไม่ได้ให้ผลลัพธ์ที่ต้องการในการใช้งานจริง SemiAnalysis อธิบายปรากฏการณ์นี้ว่า "การเปรียบเทียบกล้องด้วยจำนวนพิกเซลเพียงอย่างเดียว" ซึ่งบ่งบอกว่า AMD กำลังหลงทางในเกมตัวเลขและไม่สามารถส่งมอบประสิทธิภาพในโลกแห่งความเป็นจริงได้เพียงพอ เพื่อให้ได้ผลลัพธ์การวัดประสิทธิภาพที่ใช้งานได้ นักวิเคราะห์ต้องทำงานโดยตรงกับวิศวกรของ AMD เพื่อแก้ไขช่องโหว่ของซอฟต์แวร์หลายรายการ ในขณะที่ระบบของ Nvidia ก็พร้อมใช้งานโดยไม่ต้องปรับแต่งเพิ่มเติม
รายงานยังระบุด้วยว่า Tensorwave ซึ่งเป็นผู้ให้บริการคลาวด์ GPU รายใหญ่ที่สุดของ AMD ถึงกับต้องจัดหา GPU ที่ซื้อมาเองให้กับทีมงาน AMD ฟรีเพื่อช่วยแก้ไขปัญหาซอฟต์แวร์ ด้วยเหตุนี้ SemiAnalysis แนะนำว่า CEO ของ AMD Su Zifeng จำเป็นต้องเพิ่มการลงทุนในการพัฒนาและการทดสอบซอฟต์แวร์ โดยเฉพาะอย่างยิ่งการจัดสรรชิป MI300X จำนวนมากสำหรับการทดสอบอัตโนมัติ ลดความซับซ้อนของตัวแปรสภาพแวดล้อมที่ซับซ้อน และปรับปรุงการตั้งค่าเริ่มต้นเพื่อปรับปรุงประสบการณ์โรงงาน
แม้ว่า SemiAnalysis หวังว่า AMD จะกลายเป็นคู่แข่งที่แข็งแกร่งของ Nvidia ได้ แต่พวกเขายังกล่าวด้วยว่า "น่าเสียดายที่ยังมีงานที่ต้องทำอีกมาก" หากไม่มีการปรับปรุงซอฟต์แวร์ที่สำคัญ AMD ก็เสี่ยงที่จะล้าหลังไปอีก โดยเฉพาะอย่างยิ่งเมื่อ Nvidia เตรียมที่จะเปิดตัวชิป Blackwell รุ่นต่อไป แม้ว่าจะมีรายงานด้วยว่าการเปิดตัวผลิตภัณฑ์รุ่นต่อไปของ Nvidia จะไม่ราบรื่นก็ตาม
ไฮไลท์:
ชิป AMD MI300X AI ประสบปัญหาซอฟต์แวร์ร้ายแรง ทำให้การฝึกโมเดล AI เป็นเรื่องยาก
Nvidia ยังคงขยายความได้เปรียบทางการตลาดอย่างต่อเนื่องด้วยแพลตฟอร์ม CUDA อันทรงพลังและการอัพเดตซอฟต์แวร์บ่อยครั้ง
SemiAnalysis แนะนำให้ AMD เพิ่มการลงทุนในการพัฒนาซอฟต์แวร์และปรับปรุงประสบการณ์ผู้ใช้เพื่อเพิ่มขีดความสามารถในการแข่งขัน
โดยรวมแล้ว รายงานชี้ให้เห็นอย่างชัดเจนถึงความท้าทายด้านซอฟต์แวร์ครั้งใหญ่ที่ชิป MI300X ของ AMD เผชิญ และทิศทางที่ AMD จำเป็นต้องปรับปรุง ไม่ว่าซอฟต์แวร์จะสามารถเอาชนะ "คูเมือง" ในซอฟต์แวร์ได้หรือไม่ จะเป็นตัวกำหนดความสำเร็จหรือความล้มเหลวของ AMD ในการแข่งขันในตลาดชิป AI ในอนาคตโดยตรง