AWS เปิดตัวอินสแตนซ์ Amazon EC2 Trn2 และ Trn2UltraServers ที่ใช้ชิป Trainium2 ในการประชุม re:Invent ปี 2024 รวมถึงชิป Trainium3 AI รุ่นถัดไป อินสแตนซ์รุ่นใหม่มีประสิทธิภาพที่ดีขึ้นอย่างมาก และอัตราส่วนราคาต่อประสิทธิภาพนั้นสูงกว่าอินสแตนซ์ EC2 ที่ใช้ GPU รุ่นก่อนหน้าถึง 30-40% การเคลื่อนไหวครั้งนี้ถือเป็นก้าวสำคัญสำหรับ AWS ในด้านการประมวลผล AI โดยมอบความสามารถในการประมวลผลที่ทรงพลังยิ่งขึ้นสำหรับการฝึกอบรมและการปรับใช้โมเดลภาษาขนาดใหญ่ และส่งเสริมการประยุกต์ใช้และการพัฒนาเทคโนโลยี AI ในวงกว้างผ่านความร่วมมือกับพันธมิตรหลายราย ช่วยปรับปรุงต้นทุนได้อย่างมาก ประสิทธิผล.
ในการประชุม AWS re:Invent ปี 2024 Amazon Web Services (AWS) ได้ประกาศเปิดตัวอินสแตนซ์ Amazon Elastic Compute Cloud (EC2) ที่ใช้ชิป Trainium2 ซึ่งพร้อมให้บริการแก่ผู้ใช้อย่างเป็นทางการ ราคาและประสิทธิภาพของอินสแตนซ์ใหม่นี้สูงกว่าอินสแตนซ์ EC2 ที่ใช้ GPU รุ่นก่อนหน้าถึง 30-40% “ฉันยินดีที่จะประกาศความพร้อมใช้งานทั่วไปของอินสแตนซ์ Amazon EC2Trn2 ที่ขับเคลื่อนด้วย Trainium2” Matt Garman ซีอีโอของ AWS กล่าว
นอกจากอินสแตนซ์ Trn2 แล้ว AWS ยังเปิดตัว Trn2UltraServers และสาธิตชิป Trainium3AI รุ่นต่อไปอีกด้วย อินสแตนซ์ Trn2 ที่ติดตั้งชิป Trainium2 จำนวน 16 ตัวสามารถมอบประสิทธิภาพการประมวลผลสูงถึง 20.8 เพตาฟล็อป และได้รับการออกแบบมาเพื่อการฝึกอบรมและการปรับใช้โมเดลภาษาขนาดใหญ่ (LLM) พร้อมพารามิเตอร์นับพันล้านรายการ
Trn2UltraServers รวมเซิร์ฟเวอร์ Trn2 สี่เครื่องไว้ในระบบเดียว โดยให้พลังการประมวลผลสูงถึง 83.2 petaflops เพื่อให้บรรลุความสามารถในการปรับขนาดที่สูงขึ้น UltraServers เหล่านี้มีชิป Trainium2 ที่เชื่อมต่อถึงกัน 64 ตัว เพื่อตอบสนองความต้องการด้านพลังประมวลผลของลูกค้าในระหว่างการฝึกอบรมและการอนุมาน “การเปิดตัว Trainium2 instance และ Trn2UltraServers ช่วยให้ลูกค้ามีพลังการประมวลผลที่ต้องการในการแก้ปัญหาโมเดล AI ที่ซับซ้อนที่สุด” David Brown รองประธานฝ่าย Compute and Networking ของ AWS กล่าว
AWS ร่วมมือกับ Anthropic Company เพื่อเปิดตัวคลัสเตอร์การประมวลผล AI ขนาดใหญ่ชื่อ Project Rainier โดยใช้ชิป Trainium2 นับแสนตัว โครงสร้างพื้นฐานนี้จะสนับสนุนการพัฒนาของ Anthropic รวมถึงการเพิ่มประสิทธิภาพผลิตภัณฑ์เรือธง Claude ให้ทำงานบนฮาร์ดแวร์ Trainium2
นอกจากนี้ Databricks และ Hugging Face ยังทำงานร่วมกับ AWS เพื่อใช้ประโยชน์จากความสามารถของ Trainium เพื่อปรับปรุงประสิทธิภาพและประสิทธิภาพด้านต้นทุนของผลิตภัณฑ์ AI ของตน Databricks วางแผนที่จะใช้ฮาร์ดแวร์เพื่อปรับปรุงแพลตฟอร์ม Mosaic AI ในขณะที่ Hugging Face รวม Trainium2 เข้ากับเครื่องมือการพัฒนาและปรับใช้ AI
ลูกค้า Trainium2 อื่นๆ ได้แก่ Adobe, Poolside และ Qualcomm Garman กล่าวว่าหลังจากที่ Adobe ใช้ Trainium2 ในการทดสอบโมเดลการอนุมาน Firefly ในช่วงต้น ผลลัพธ์ที่ได้ก็เป็นที่น่าพอใจมากและคาดว่าจะประหยัดได้มาก “ริมสระน้ำคาดว่าจะประหยัดได้ 40% เมื่อเทียบกับตัวเลือกอื่นๆ” เขากล่าวเสริม “Qualcomm กำลังใช้ประโยชน์จาก Trainium2 เพื่อพัฒนาระบบ AI ที่สามารถฝึกฝนในระบบคลาวด์และปรับใช้ที่ Edge ได้”
นอกจากนี้ AWS ยังแสดงตัวอย่างชิป Trainium3 ซึ่งใช้กระบวนการ 3 นาโนเมตรอีกด้วย UltraServers ที่ใช้ Trainium3 คาดว่าจะเปิดตัวภายในสิ้นปี 2568 และได้รับการออกแบบมาให้มีประสิทธิภาพสูงกว่า Trn2 UltraServers ถึงสี่เท่า
เพื่อเพิ่มประสิทธิภาพการใช้ฮาร์ดแวร์ Trainium AWS ยังได้เปิดตัว Neuron SDK ซึ่งเป็นชุดเครื่องมือซอฟต์แวร์ที่ช่วยให้นักพัฒนาปรับโมเดลให้เหมาะสมเพื่อให้ได้ประสิทธิภาพสูงสุดบนชิป Trainium SDK รองรับเฟรมเวิร์ก เช่น JAX และ PyTorch ช่วยให้ลูกค้าสามารถรวมซอฟต์แวร์เข้ากับเวิร์กโฟลว์ที่มีอยู่โดยมีการแก้ไขโค้ดเพียงเล็กน้อย
ปัจจุบัน อินสแตนซ์ Trn2 มีให้บริการในภูมิภาคสหรัฐอเมริกาฝั่งตะวันออก (โอไฮโอ) และจะขยายไปยังภูมิภาคอื่นๆ ในอนาคต ขณะนี้ UltraServers อยู่ในการแสดงตัวอย่าง
โดยรวมแล้ว การเปิดตัว Trainium2 และผลิตภัณฑ์และบริการที่เกี่ยวข้องโดย AWS ได้มอบแรงผลักดันที่แข็งแกร่งสำหรับการพัฒนาอย่างรวดเร็วในด้านปัญญาประดิษฐ์ และยังช่วยเสริมความแข็งแกร่งให้กับตำแหน่งผู้นำของ AWS ในด้านการประมวลผลบนคลาวด์และ AI อีกด้วย ในอนาคต ด้วยการเปิดตัว Trainium3 ข้อได้เปรียบในด้านการประมวลผล AI จะมีความสำคัญมากยิ่งขึ้น