ในยุคที่อุปกรณ์เคลื่อนที่และบ้านอัจฉริยะได้รับความนิยมเพิ่มมากขึ้น การใช้งานโมเดลภาษาขนาดใหญ่ (LLM) อย่างมีประสิทธิภาพได้กลายเป็นความจำเป็นเร่งด่วน อย่างไรก็ตาม ทรัพยากรการประมวลผลและหน่วยความจำที่จำกัดของอุปกรณ์ Edge กลายเป็นปัญหาคอขวด บทความนี้แนะนำเทคโนโลยี T-MAC ซึ่งเป็นวิธีการที่ใช้ตารางค้นหา ซึ่งสามารถปรับปรุงประสิทธิภาพการทำงานของ LLM บิตต่ำบนอุปกรณ์ Edge ได้อย่างมาก โดยนำความสามารถในการประมวลผลอัจฉริยะที่ทรงพลังยิ่งขึ้นมาสู่อุปกรณ์อัจฉริยะ ส่งผลให้ผู้ใช้อัจฉริยะสะดวกและมีประสิทธิภาพมากขึ้น ประสบการณ์.
ในยุคนี้ที่อุปกรณ์อัจฉริยะมีอยู่ทุกหนทุกแห่ง เรากระตือรือร้นที่จะทำให้โทรศัพท์มือถือ แท็บเล็ต และแม้แต่อุปกรณ์สมาร์ทโฮมมีความสามารถในการประมวลผลอัจฉริยะที่ทรงพลังยิ่งขึ้น อย่างไรก็ตาม อุปกรณ์ Edge เหล่านี้มีทรัพยากรฮาร์ดแวร์ที่จำกัด โดยเฉพาะหน่วยความจำและพลังการประมวลผล ซึ่งจำกัดการใช้งานและการทำงานของโมเดลภาษาขนาดใหญ่ (LLM) ลองจินตนาการดูว่าโลกของเราจะเปลี่ยนอย่างไรถ้าเราสามารถติดตั้งอุปกรณ์เหล่านี้ด้วยโมเดลอันทรงพลังที่สามารถเข้าใจภาษาธรรมชาติ ตอบคำถาม หรือแม้แต่สร้างสรรค์ผลงานได้
นี่คือเบื้องหลังของการกำเนิดเทคโนโลยี T-MAC T-MAC ซึ่งเป็นชื่อเต็มของ MAC ที่ใช้ Table-Lookup เป็นวิธีการที่ใช้ตารางการค้นหา ซึ่งช่วยให้โมเดลภาษาขนาดใหญ่บิตต่ำทำงานได้อย่างมีประสิทธิภาพบน CPU ดังนั้นจึงบรรลุการอัพเกรดอัจฉริยะบนอุปกรณ์ Edge
โมเดลภาษาขนาดใหญ่มักจะมีพารามิเตอร์นับพันล้านหรือหลายหมื่นล้านพารามิเตอร์ ซึ่งต้องใช้หน่วยความจำจำนวนมากในการจัดเก็บ ในการปรับใช้โมเดลเหล่านี้บนอุปกรณ์ Edge เราจำเป็นต้องกำหนดปริมาณน้ำหนักของโมเดล กล่าวคือ ใช้บิตน้อยลงเพื่อแสดงน้ำหนัก ซึ่งจะช่วยลดพื้นที่หน่วยความจำของโมเดล อย่างไรก็ตาม โมเดลเชิงปริมาณต้องใช้การคูณเมทริกซ์แบบผสมความแม่นยำ (mpGEMM) ในระหว่างการดำเนินการ ซึ่งไม่พบบ่อยในระบบฮาร์ดแวร์และซอฟต์แวร์ที่มีอยู่ และขาดการสนับสนุนที่มีประสิทธิภาพ
แนวคิดหลักของ T-MAC คือการแปลงการดำเนินการคูณตามประเภทข้อมูลแบบดั้งเดิมให้เป็นการค้นหาตารางค้นหาแบบบิต (LUT) วิธีนี้ไม่เพียงแต่กำจัดการดำเนินการคูณเท่านั้น แต่ยังช่วยลดการดำเนินการบวกด้วย จึงช่วยปรับปรุงประสิทธิภาพการดำเนินงานได้อย่างมาก
โดยเฉพาะ T-MAC จะถูกนำไปใช้ตามขั้นตอนต่อไปนี้:
แยกเมทริกซ์น้ำหนักออกเป็นเมทริกซ์หนึ่งบิตหลายรายการ
คำนวณผลคูณของเวคเตอร์การเปิดใช้งานล่วงหน้าด้วยรูปแบบหนึ่งบิตที่เป็นไปได้ทั้งหมด และจัดเก็บผลลัพธ์ไว้ในตารางการค้นหา
ในระหว่างการอนุมาน ผลการคูณเมทริกซ์ขั้นสุดท้ายจะได้รับอย่างรวดเร็วผ่านดัชนีตารางการค้นหาและการดำเนินการสะสม
ผ่านการทดสอบบนอุปกรณ์ Edge ที่หลากหลาย T-MAC ได้แสดงให้เห็นถึงข้อได้เปรียบด้านประสิทธิภาพที่สำคัญ เมื่อเปรียบเทียบกับการใช้งาน llama.cpp ที่มีอยู่แล้ว T-MAC ปรับปรุงปริมาณงานได้ 4 เท่า และลดการใช้พลังงานลง 70% ซึ่งช่วยให้แม้แต่อุปกรณ์ระดับล่าง เช่น Raspberry Pi5 สามารถสร้างโทเค็นได้เร็วกว่าความเร็วการอ่านของผู้ใหญ่โดยเฉลี่ย
T-MAC ไม่เพียงแต่มีข้อได้เปรียบทางทฤษฎีเท่านั้น แต่ยังมีศักยภาพในการใช้งานจริงอีกด้วย ไม่ว่าจะเป็นการรู้จำเสียงพูดแบบเรียลไทม์และการประมวลผลภาษาธรรมชาติบนสมาร์ทโฟน หรือการมอบประสบการณ์การโต้ตอบที่ชาญฉลาดยิ่งขึ้นบนอุปกรณ์สมาร์ทโฮม T-MAC สามารถมีบทบาทสำคัญได้
เทคโนโลยี T-MAC มอบโซลูชันที่มีประสิทธิภาพและประหยัดพลังงานสำหรับการปรับใช้โมเดลภาษาขนาดใหญ่บิตต่ำบนอุปกรณ์ Edge ไม่เพียงแต่สามารถปรับปรุงระดับความฉลาดของอุปกรณ์เท่านั้น แต่ยังทำให้ผู้ใช้ได้รับประสบการณ์อัจฉริยะที่สมบูรณ์และสะดวกยิ่งขึ้นอีกด้วย ด้วยการพัฒนาอย่างต่อเนื่องและการเพิ่มประสิทธิภาพของเทคโนโลยี เรามีเหตุผลที่เชื่อได้ว่า T-MAC จะมีบทบาทสำคัญมากขึ้นในด้าน Edge Intelligence
ที่อยู่โอเพ่นซอร์ส: https://github.com/microsoft/T-MAC
ที่อยู่กระดาษ: https://www.arxiv.org/pdf/2407.00088
การเกิดขึ้นของเทคโนโลยี T-MAC ได้นำมาซึ่งความก้าวหน้าครั้งใหม่ในด้านการประมวลผลแบบเอดจ์ ประสิทธิภาพสูงและการประหยัดพลังงานทำให้มีแนวโน้มการใช้งานในวงกว้างบนอุปกรณ์อัจฉริยะต่างๆ ฉันเชื่อว่าในอนาคต T-MAC จะได้รับการปรับปรุงเพิ่มเติมและมีส่วนช่วยสร้างโลกที่ชาญฉลาดและสะดวกสบายยิ่งขึ้น