เอกสาร LLM ที่มีประสิทธิภาพด้านทรัพยากรที่ยอดเยี่ยม
รายการเอกสารคุณภาพสูงที่รวบรวมไว้เกี่ยวกับ LLM ที่ประหยัดทรัพยากร
นี่คือ GitHub repo สำหรับรายงานการสำรวจของเรา Beyond Efficiency: การสำรวจอย่างเป็นระบบของโมเดลภาษาขนาดใหญ่ที่มีประสิทธิภาพทรัพยากร
สารบัญ
- เอกสาร LLM ที่มีประสิทธิภาพด้านทรัพยากรที่ยอดเยี่ยม
- สารบัญ
- การออกแบบสถาปัตยกรรม LLM
- สถาปัตยกรรมหม้อแปลงไฟฟ้าที่มีประสิทธิภาพ
- สถาปัตยกรรมที่ไม่ใช่หม้อแปลงไฟฟ้า
- LLM ก่อนการฝึกอบรม
- ประสิทธิภาพหน่วยความจำ
- การฝึกอบรมแบบกระจาย
- การฝึกความแม่นยำแบบผสม
- ประสิทธิภาพของข้อมูล
- การสุ่มตัวอย่างความสำคัญ
- การเพิ่มข้อมูล
- วัตถุประสงค์การฝึกอบรม
- LLM การปรับแต่งแบบละเอียด
- การปรับแต่งแบบละเอียดอย่างมีประสิทธิภาพด้วยพารามิเตอร์
- การปรับแต่งแบบละเอียดแบบเต็มพารามิเตอร์
- การอนุมาน LLM
- การบีบอัดโมเดล
- การตัดแต่งกิ่ง
- การหาปริมาณ
- การเร่งความเร็วแบบไดนามิก
- การออกแบบระบบ
- การเพิ่มประสิทธิภาพการปรับใช้
- รองรับโครงสร้างพื้นฐาน
- ระบบอื่นๆ
- ตัวชี้วัดและเกณฑ์มาตรฐานการประเมินประสิทธิภาพทรัพยากร
- - เมตริกการคำนวณ
- - การวัดหน่วยความจำ
- ⚡️ การวัดพลังงาน
- - การวัดต้นทุนทางการเงิน
- - เมตริกการสื่อสารเครือข่าย
- ตัวชี้วัดอื่น ๆ
- เกณฑ์มาตรฐาน
- อ้างอิง
การออกแบบสถาปัตยกรรม LLM
สถาปัตยกรรมหม้อแปลงไฟฟ้าที่มีประสิทธิภาพ
วันที่ | คำหลัก | กระดาษ | สถานที่ |
---|
2024 | ความสนใจโดยประมาณ | โมเดลภาษาความสนใจเชิงเส้นอย่างง่ายสร้างสมดุลระหว่างการแลกเปลี่ยนการเรียกคืนและปริมาณงาน | อาร์เอ็กซ์ |
2024 | ความสนใจด้านฮาร์ดแวร์ | MobileLLM: การเพิ่มประสิทธิภาพโมเดลภาษาพารามิเตอร์มูลค่าหลายพันล้านสำหรับกรณีการใช้งานบนอุปกรณ์ | อาร์เอ็กซ์ |
2024 | ความสนใจโดยประมาณ | LoMA: ความสนใจของหน่วยความจำที่บีบอัดแบบไม่สูญเสียข้อมูล | อาร์เอ็กซ์ |
2024 | ความสนใจโดยประมาณ | ก้อนหินสองก้อนชนนกตัวหนึ่ง: การเข้ารหัสตำแหน่งสองระดับเพื่อการประมาณค่าความยาวที่ดีขึ้น | ไอซีเอ็มแอล |
2024 | การเพิ่มประสิทธิภาพฮาร์ดแวร์ | FlashAttention-2: ความสนใจเร็วขึ้นพร้อมความขนานที่ดีขึ้นและการแบ่งพาร์ติชันการทำงาน | ไอซีแอลอาร์ |
2023 | การเพิ่มประสิทธิภาพฮาร์ดแวร์ | Flashattention: ความสนใจที่แม่นยำรวดเร็วและมีประสิทธิภาพหน่วยความจำพร้อมการรับรู้ io | ประสาทไอพีเอส |
2023 | ความสนใจโดยประมาณ | KDEformer: การเร่งหม้อแปลงผ่านการประมาณความหนาแน่นของเคอร์เนล | ไอซีเอ็มแอล |
2023 | ความสนใจโดยประมาณ | เมกะ: ค่าเฉลี่ยเคลื่อนที่พร้อมรั้วรอบขอบชิดความสนใจ | ไอซีแอลอาร์ |
2022 | การเพิ่มประสิทธิภาพฮาร์ดแวร์ | xFormers - กล่องเครื่องมือเพื่อเร่งการวิจัยเกี่ยวกับ Transformers | GitHub |
2021 | ความสนใจโดยประมาณ | ความสนใจอย่างมีประสิทธิภาพ: ความสนใจที่มีความซับซ้อนเชิงเส้น | WACV |
2021 | ความสนใจโดยประมาณ | หม้อแปลงไฟฟ้าที่ปราศจากความสนใจ | อาร์เอ็กซ์ |
2021 | ความสนใจโดยประมาณ | การเอาใจใส่ตนเองไม่จำเป็นต้องมีหน่วยความจำ O(n^2) | อาร์เอ็กซ์ |
2021 | การเพิ่มประสิทธิภาพฮาร์ดแวร์ | LightSeq: ไลบรารีการอนุมานประสิทธิภาพสูงสำหรับ Transformers | เอ็นเอเอซีแอล |
2021 | การเพิ่มประสิทธิภาพฮาร์ดแวร์ | FasterTransformer: กรอบงาน Transformer ที่เร็วขึ้น | GitHub |
2020 | ความสนใจโดยประมาณ | หม้อแปลงคือ RNN: หม้อแปลงแบบถอยหลังอัตโนมัติที่รวดเร็วพร้อมความสนใจเชิงเส้น | ไอซีเอ็มแอล |
2019 | ความสนใจโดยประมาณ | รีฟอร์มเมอร์: หม้อแปลงไฟฟ้าที่มีประสิทธิภาพ | ไอซีแอลอาร์ |
สถาปัตยกรรมที่ไม่ใช่หม้อแปลงไฟฟ้า
วันที่ | คำหลัก | กระดาษ | สถานที่ |
---|
2024 | เครื่องถอดรหัส | คุณแคชเพียงครั้งเดียว: สถาปัตยกรรมตัวถอดรหัส-ตัวถอดรหัสสำหรับโมเดลภาษา | อาร์เอ็กซ์ |
2024 | เลเยอร์ BitLinear | การสร้างแบบจำลองภาษาที่ปราศจาก MatMul ที่ปรับขนาดได้ | อาร์เอ็กซ์ |
2023 | อาร์เอ็นเอ็น แอล | RWKV: การสร้างสรรค์ RNN ใหม่สำหรับยุค Transformer | EMNLP-การค้นพบ |
2023 | เอ็มแอลพี | ตัวทำนายโทเค็นถัดไปแบบถดถอยอัตโนมัติคือผู้เรียนสากล | อาร์เอ็กซ์ |
2023 | LM แบบหมุนวน | ลำดับชั้นของหมาใน: สู่โมเดลภาษา Convolutional ที่ใหญ่ขึ้น | ไอซีเอ็มแอล |
2023 | อิงตามเมทริกซ์กำลังสองย่อย | Monarch Mixer: สถาปัตยกรรมที่ใช้ Sub-Quadratic GEMM อย่างง่าย | ประสาทไอพีเอส |
2023 | แบบจำลองอวกาศของรัฐแบบเลือกสรร | Mamba: การสร้างแบบจำลองลำดับเวลาเชิงเส้นพร้อมช่องว่างสถานะแบบเลือก | อาร์เอ็กซ์ |
2022 | การผสมผสานของผู้เชี่ยวชาญ | Switch Transformers: ปรับขนาดเป็นโมเดลพารามิเตอร์ล้านล้านด้วยความกระจัดกระจายที่เรียบง่ายและมีประสิทธิภาพ | เจเอ็มแอลอาร์ |
2022 | การผสมผสานของผู้เชี่ยวชาญ | GLaM: การปรับขนาดโมเดลภาษาอย่างมีประสิทธิภาพด้วยผู้เชี่ยวชาญที่หลากหลาย | ไอซีเอ็มแอล |
2022 | การผสมผสานของผู้เชี่ยวชาญ | การผสมผสานของผู้เชี่ยวชาญพร้อมการกำหนดเส้นทางตัวเลือกของผู้เชี่ยวชาญ | ประสาทไอพีเอส |
2022 | การผสมผสานของผู้เชี่ยวชาญ | การสร้างแบบจำลองภาษาขนาดใหญ่ที่มีประสิทธิภาพพร้อมผู้เชี่ยวชาญที่หลากหลาย | เอ็มแอลพี |
2017 | การผสมผสานของผู้เชี่ยวชาญ | โครงข่ายประสาทเทียมขนาดใหญ่อย่างอุกอาจ: เลเยอร์ผู้เชี่ยวชาญแบบผสมผสานที่มีรั้วรอบขอบชิดแบบกระจัดกระจาย | ไอซีแอลอาร์ |
LLM ก่อนการฝึกอบรม
ประสิทธิภาพหน่วยความจำ
การฝึกอบรมแบบกระจาย
วันที่ | คำหลัก | กระดาษ | สถานที่ |
---|
2024 | แบบจำลองความเท่าเทียม | ProTrain: การฝึกอบรม LLM ที่มีประสิทธิภาพผ่านการจัดการหน่วยความจำแบบปรับเปลี่ยนได้ | อาร์ซิฟ |
2024 | แบบจำลองความเท่าเทียม | MegaScale: ปรับขนาดการฝึกอบรมโมเดลภาษาขนาดใหญ่เป็นมากกว่า 10,000 GPU | อาร์ซิฟ |
2023 | ความเท่าเทียมของข้อมูล | ปาล์ม: ปรับขนาดการสร้างแบบจำลองภาษาด้วยวิถีทาง | Github |
2023 | แบบจำลองความเท่าเทียม | Bpipe: ความขนานไปป์ไลน์ที่สมดุลของหน่วยความจำสำหรับการฝึกโมเดลภาษาขนาดใหญ่ | เจเอ็มแอลอาร์ |
2022 | แบบจำลองความเท่าเทียม | Alpa: การทำให้ระบบคู่ขนานระหว่างและภายในผู้ปฏิบัติงานเป็นอัตโนมัติเพื่อการเรียนรู้เชิงลึกแบบกระจาย | OSDI |
2021 | ความเท่าเทียมของข้อมูล | FairScale: ไลบรารี PyTorch แบบโมดูลาร์วัตถุประสงค์ทั่วไปสำหรับการฝึกอบรมประสิทธิภาพสูงและขนาดใหญ่ | เจเอ็มแอลอาร์ |
2020 | ความเท่าเทียมของข้อมูล | ศูนย์: การเพิ่มประสิทธิภาพหน่วยความจำเพื่อฝึกฝนโมเดลพารามิเตอร์หลายล้านล้านตัว | อีอีอี SC20 |
2019 | แบบจำลองความเท่าเทียม | GPipe: การฝึกอบรมที่มีประสิทธิภาพของโครงข่ายประสาทเทียมขนาดยักษ์โดยใช้ Pipeline Parallelism | ประสาทไอพีเอส |
2019 | แบบจำลองความเท่าเทียม | Megatron-LM: การฝึกอบรมโมเดลภาษาพารามิเตอร์หลายพันล้านโดยใช้โมเดล Parallelism | อาร์ซิฟ |
2019 | แบบจำลองความเท่าเทียม | PipeDream: ความคล้ายคลึงกันของไปป์ไลน์ทั่วไปสำหรับการฝึกอบรม DNN | สสส |
2018 | แบบจำลองความเท่าเทียม | Mesh-tensorflow: การเรียนรู้เชิงลึกสำหรับซูเปอร์คอมพิวเตอร์ | ประสาทไอพีเอส |
การฝึกความแม่นยำแบบผสม
วันที่ | คำหลัก | กระดาษ | สถานที่ |
---|
2022 | การฝึกความแม่นยำแบบผสม | BLOOM: โมเดลภาษาหลายภาษาแบบเปิดที่เข้าถึงได้หลายพารามิเตอร์ 176B | อาร์ซิฟ |
2018 | การฝึกความแม่นยำแบบผสม | เบิร์ต: การฝึกอบรมหม้อแปลงไฟฟ้าสองทิศทางเชิงลึกล่วงหน้าเพื่อการทำความเข้าใจภาษา | เอซีแอล |
2017 | การฝึกความแม่นยำแบบผสม | การฝึกความแม่นยำแบบผสม | ไอซีแอลอาร์ |
ประสิทธิภาพของข้อมูล
การสุ่มตัวอย่างความสำคัญ
วันที่ | คำหลัก | กระดาษ | สถานที่ |
---|
2024 | การสุ่มตัวอย่างความสำคัญ | LISA: การสุ่มตัวอย่างความสำคัญแบบเลเยอร์สำหรับการปรับแต่งโมเดลภาษาขนาดใหญ่ที่มีประสิทธิภาพหน่วยความจำ | อาร์ซิฟ |
2023 | สำรวจการสุ่มตัวอย่างความสำคัญ | แบบสำรวจการฝึกอบรมประสิทธิภาพของหม้อแปลงไฟฟ้า | อิจซี |
2023 | การสุ่มตัวอย่างความสำคัญ | Data-Juicer: ระบบประมวลผลข้อมูลแบบครบวงจรสำหรับโมเดลภาษาขนาดใหญ่ | อาร์ซิฟ |
2023 | การสุ่มตัวอย่างความสำคัญ | ชาญฉลาด: การใช้ชุดย่อยข้อมูลเพื่อการฝึกอบรมโมเดลภาษาล่วงหน้าอย่างมีประสิทธิภาพ | เอ็มแอลพี |
2023 | การสุ่มตัวอย่างความสำคัญ | สนามพลังการเรียนรู้ของเครื่องพร้อมการฝึกอบรมการรับรู้ต้นทุนข้อมูล | ไอซีเอ็มแอล |
2022 | การสุ่มตัวอย่างความสำคัญ | นอกเหนือจากกฎการปรับขนาดประสาท: เอาชนะการปรับขนาดกฎพลังงานด้วยการตัดข้อมูล | ประสาทไอพีเอส |
2021 | การสุ่มตัวอย่างความสำคัญ | การเรียนรู้เชิงลึกเกี่ยวกับการลดน้ำหนักด้วยข้อมูล: การค้นหาตัวอย่างที่สำคัญในช่วงเริ่มต้นของการฝึกอบรม | ประสาทไอพีเอส |
2018 | การสุ่มตัวอย่างความสำคัญ | ฝึกฝนโมเดลเชิงลึกได้เร็วขึ้นด้วยการสุ่มตัวอย่างความสำคัญโดยประมาณที่แข็งแกร่ง | ประสาทไอพีเอส |
2018 | การสุ่มตัวอย่างความสำคัญ | ตัวอย่างบางส่วนไม่ได้ถูกสร้างขึ้นอย่างเท่าเทียมกัน: การเรียนรู้เชิงลึกพร้อมการสุ่มตัวอย่างที่มีความสำคัญ | ไอซีเอ็มแอล |
การเพิ่มข้อมูล
วันที่ | คำหลัก | กระดาษ | สถานที่ |
---|
2024 | การเพิ่มข้อมูล | LLMRec: โมเดลภาษาขนาดใหญ่พร้อมการเพิ่มกราฟสำหรับคำแนะนำ | WSDM |
2024 | การเพิ่มข้อมูล | LLM-DA: การเพิ่มข้อมูลผ่านโมเดลภาษาขนาดใหญ่สำหรับการจดจำเอนทิตีที่มีชื่อเพียงไม่กี่ช็อต | อาร์ซิฟ |
2023 | การเพิ่มข้อมูล | MixGen: การเพิ่มข้อมูลหลายรูปแบบใหม่ | WACV |
2023 | การเพิ่มข้อมูล | การกำกับดูแลตนเองแบบ Augmentation-Aware สำหรับการฝึกอบรม GAN ที่มีประสิทธิภาพข้อมูล | ประสาทไอพีเอส |
2023 | การเพิ่มข้อมูล | การปรับปรุงการประมวลผลคำพูดจากต้นทางถึงปลายทางโดยการใช้ข้อมูลข้อความอย่างมีประสิทธิภาพพร้อมการสังเคราะห์แฝง | เอ็มแอลพี |
2023 | การเพิ่มข้อมูล | FaMeSumm: การตรวจสอบและปรับปรุงความซื่อสัตย์ของการสรุปทางการแพทย์ | เอ็มแอลพี |
วัตถุประสงค์การฝึกอบรม
วันที่ | คำหลัก | กระดาษ | สถานที่ |
---|
2023 | วัตถุประสงค์การฝึกอบรม | ความท้าทายและการประยุกต์โมเดลภาษาขนาดใหญ่ | อาร์ซิฟ |
2023 | วัตถุประสงค์การฝึกอบรม | การเรียนรู้ข้อมูลที่มีประสิทธิภาพสำหรับการดึงข้อมูลแบบเปิดด้วยโมเดลภาษาที่ได้รับการฝึกอบรมล่วงหน้า | เอ็มแอลพี |
2023 | การสร้างแบบจำลองภาษาและภาพมาสก์ | การปรับขนาดการฝึกอบรมล่วงหน้าภาษา-รูปภาพผ่านการมาสก์ | ซีวีพีอาร์ |
2022 | การสร้างแบบจำลองภาพมาสก์ | ตัวเข้ารหัสอัตโนมัติที่สวมหน้ากากคือผู้เรียนด้านการมองเห็นที่ปรับขนาดได้ | ซีวีพีอาร์ |
2019 | การสร้างแบบจำลองภาษามาสก์ | MASS: Masked Sequence to Sequence การฝึกอบรมล่วงหน้าสำหรับการสร้างภาษา | ไอซีเอ็มแอล |
LLM การปรับแต่งแบบละเอียด
การปรับแต่งแบบละเอียดอย่างมีประสิทธิภาพด้วยพารามิเตอร์
วันที่ | คำหลัก | กระดาษ | สถานที่ |
---|
2024 | การปรับแต่งแบบละเอียดตาม LoRA | Dlora: โซลูชันการปรับแต่งพารามิเตอร์ที่มีประสิทธิภาพแบบกระจายสำหรับโมเดลภาษาขนาดใหญ่ | อาร์ซิฟ |
2024 | การปรับแต่งแบบละเอียดตาม LoRA | SplitLoRA: กรอบงานการปรับแต่งแบบละเอียดที่มีประสิทธิภาพแบบแยกพารามิเตอร์สำหรับโมเดลภาษาขนาดใหญ่ | อาร์ซิฟ |
2024 | การปรับแต่งแบบละเอียดตาม LoRA | การปรับแต่งอย่างละเอียดอย่างมีประสิทธิภาพสำหรับคำแนะนำตาม LLM | ซิเกอร์ |
2024 | การปรับแต่งแบบละเอียดตาม LoRA | MEFT: การปรับแต่งแบบละเอียดด้วยหน่วยความจำอย่างมีประสิทธิภาพผ่านอะแดปเตอร์แบบกระจาย | เอซีแอล |
2023 | การปรับแต่งแบบละเอียดตาม LoRA | DyLoRA: การปรับแต่งโมเดลที่ได้รับการฝึกอย่างมีประสิทธิภาพด้วยพารามิเตอร์โดยใช้การปรับอันดับต่ำโดยไม่ต้องค้นหาแบบไดนามิก | อีเอซีแอล |
2022 | การปรับแต่งแบบละเอียดตามการมาสกิ้ง | การปรับแต่งโมเดลภาษาที่ได้รับการฝึกอบรมล่วงหน้าอย่างละเอียดอย่างมีประสิทธิภาพโดยการเพิ่มประสิทธิภาพเครือข่ายย่อยแบบปรับเปลี่ยนได้ | ประสาทไอพีเอส |
2021 | การปรับแต่งแบบละเอียดตามการมาสกิ้ง | BitFit: การปรับแต่งพารามิเตอร์อย่างง่ายและมีประสิทธิภาพสำหรับโมเดลภาษามาสก์ที่ใช้ Transformer | เอซีแอล |
2021 | การปรับแต่งแบบละเอียดตามการมาสกิ้ง | เลี้ยงลูกด้วยโมเดลภาษาขนาดใหญ่: สู่การปรับแต่งอย่างละเอียดอย่างมีประสิทธิผลและเป็นแบบทั่วไป | เอ็มแอลพี |
2021 | การปรับแต่งแบบละเอียดตามการมาสก์ | การขจัดอคติในโมเดลภาษาโดยการแบ่งพาร์ติชันการไล่ระดับสี | เอซีแอล |
2019 | การปรับแต่งแบบละเอียดตามการมาสกิ้ง | SMART: การปรับแต่งอย่างละเอียดและมีประสิทธิภาพสำหรับโมเดลภาษาธรรมชาติที่ได้รับการฝึกอบรมล่วงหน้าผ่านการเพิ่มประสิทธิภาพแบบมาตรฐานตามหลักการ | เอซีแอล |
การปรับแต่งแบบละเอียดแบบเต็มพารามิเตอร์
วันที่ | คำหลัก | กระดาษ | สถานที่ |
---|
2024 | การปรับแต่งแบบเต็มพารามิเตอร์ | Hift: กลยุทธ์การปรับแต่งพารามิเตอร์แบบเต็มแบบลำดับชั้น | อาร์ซิฟ |
2024 | การศึกษาการเพิ่มประสิทธิภาพการปรับแต่งแบบละเอียดแบบเต็มพารามิเตอร์ | การศึกษาการปรับให้เหมาะสมสำหรับการปรับแต่งโมเดลภาษาขนาดใหญ่อย่างละเอียด | อาร์ซิฟ |
2023 | การศึกษาเปรียบเทียบระหว่างการปรับแต่งแบบเต็มพารามิเตอร์และการปรับฐาน LoRA | การศึกษาเปรียบเทียบระหว่างการปรับแต่งแบบละเอียดแบบเต็มพารามิเตอร์และแบบ LoRA บนข้อมูลคำสั่งภาษาจีนสำหรับคำสั่งตามแบบจำลองภาษาขนาดใหญ่ | อาร์ซิฟ |
2023 | การศึกษาเปรียบเทียบระหว่างการปรับแต่งแบบเต็มพารามิเตอร์และการปรับพารามิเตอร์อย่างมีประสิทธิภาพ | การเปรียบเทียบระหว่างเทคนิคการใช้พารามิเตอร์อย่างมีประสิทธิภาพกับการปรับแต่งอย่างละเอียด: กรณีศึกษาการจัดประเภทบทความข่าวหลายภาษา | อาร์ซิฟ |
2023 | การปรับแต่งแบบเต็มพารามิเตอร์ด้วยทรัพยากรที่จำกัด | การปรับแต่งพารามิเตอร์แบบเต็มสำหรับโมเดลภาษาขนาดใหญ่ที่มีทรัพยากรจำกัด | อาร์ซิฟ |
2023 | การปรับแต่งแบบละเอียดที่มีประสิทธิภาพหน่วยความจำ | ปรับแต่งโมเดลภาษาอย่างละเอียดด้วย Just Forward Pass | ประสาทไอพีเอส |
2023 | การปรับแต่งอย่างละเอียดแบบเต็มพารามิเตอร์สำหรับการใช้งานด้านการแพทย์ | PMC-LLaMA: มุ่งสู่การสร้างแบบจำลองภาษาโอเพ่นซอร์สสำหรับการแพทย์ | อาร์ซิฟ |
2022 | ข้อเสียของการปรับแต่งแบบละเอียดแบบเต็มพารามิเตอร์ | การปรับแต่งแบบละเอียดสามารถบิดเบือนคุณสมบัติที่ได้รับการฝึกมาล่วงหน้าและประสิทธิภาพต่ำกว่าการแจกจ่ายนอกระบบ | ไอซีแอลอาร์ |
การอนุมาน LLM
การบีบอัดโมเดล
การตัดแต่งกิ่ง
วันที่ | คำหลัก | กระดาษ | สถานที่ |
---|
2024 | การตัดแต่งกิ่งที่ไม่มีโครงสร้าง | SparseLLM: สู่การตัดแต่งทั่วโลกสำหรับโมเดลภาษาที่ได้รับการฝึกอบรมล่วงหน้า | ประสาทไอพีเอส |
2024 | การตัดแต่งกิ่งแบบมีโครงสร้าง | สับสนโดยความฉงนสนเท่ห์: การตัดข้อมูลตามความฉงนสนเท่ห์ด้วยแบบจำลองอ้างอิงขนาดเล็ก | อาร์ซิฟ |
2024 | การตัดแต่งกิ่งแบบมีโครงสร้าง | BESA: การตัดโมเดลภาษาขนาดใหญ่ด้วยการจัดสรร Sparsity ที่มีประสิทธิภาพแบบบล็อกตามพารามิเตอร์ | อาร์ซิฟ |
2024 | การตัดแต่งกิ่งแบบมีโครงสร้าง | ShortGPT: เลเยอร์ในโมเดลภาษาขนาดใหญ่มีความซ้ำซ้อนมากกว่าที่คุณคาดไว้ | อาร์ซิฟ |
2024 | การตัดแต่งกิ่งแบบมีโครงสร้าง | NutePrune: การตัดแต่งกิ่งแบบก้าวหน้าอย่างมีประสิทธิภาพด้วยอาจารย์จำนวนมากสำหรับโมเดลภาษาขนาดใหญ่ | อาร์ซิฟ |
2024 | การตัดแต่งกิ่งแบบมีโครงสร้าง | SliceGPT: บีบอัดโมเดลภาษาขนาดใหญ่โดยการลบแถวและคอลัมน์ | ไอซีแอลอาร์ |
2024 | การตัดแต่งกิ่งที่ไม่มีโครงสร้าง | Dynamic Sparse No Training: การปรับแต่งแบบละเอียดฟรีสำหรับ Sparse LLM | ไอซีแอลอาร์ |
2024 | การตัดแต่งกิ่งแบบมีโครงสร้าง | Plug-and-Play: วิธีการตัดแต่งกิ่งหลังการฝึกอบรมที่มีประสิทธิภาพสำหรับโมเดลภาษาขนาดใหญ่ | ไอซีแอลอาร์ |
2023 | การตัดแต่งกิ่งที่ไม่มีโครงสร้าง | การตัดเฉือนแบบกระจายแบบผสมที่รับรู้ความไวในการถ่ายภาพครั้งเดียวสำหรับโมเดลภาษาขนาดใหญ่ | อาร์ซิฟ |
2023 | การตัดแต่งกิ่งที่ไม่มีโครงสร้าง | SparseGPT: โมเดลภาษาจำนวนมากสามารถตัดได้อย่างแม่นยำใน One-Shot | ไอซีเอ็มแอล |
2023 | การตัดแต่งกิ่งที่ไม่มีโครงสร้าง | วิธีการตัดแต่งกิ่งที่ง่ายและมีประสิทธิภาพสำหรับโมเดลภาษาขนาดใหญ่ | ไอซีแอลอาร์ |
2023 | การตัดแต่งกิ่งที่ไม่มีโครงสร้าง | AccelTran: Sparsity-Aware Accelerator สำหรับการอนุมานแบบไดนามิกด้วย Transformers | TCAD |
2023 | การตัดแต่งกิ่งแบบมีโครงสร้าง | LLM-Pruner: เกี่ยวกับการตัดแต่งโครงสร้างของโมเดลภาษาขนาดใหญ่ | ประสาทไอพีเอส |
2023 | การตัดแต่งกิ่งแบบมีโครงสร้าง | LoSparse: การบีบอัดโครงสร้างของโมเดลภาษาขนาดใหญ่โดยอิงจากการประมาณอันดับต่ำและการประมาณแบบเบาบาง | ไอซีเอ็มแอล |
2023 | การตัดแต่งกิ่งแบบมีโครงสร้าง | การตัดแต่งกิ่งอย่างมีโครงสร้างสำหรับโมเดลภาษาที่ได้รับการฝึกอบรมล่วงหน้าอย่างมีประสิทธิภาพ | เอซีแอล |
2023 | การตัดแต่งกิ่งแบบมีโครงสร้าง | ZipLM: การตัดโครงสร้างโมเดลภาษาแบบ Inference-Aware | ประสาทไอพีเอส |
2023 | การตัดแต่งกิ่งตามบริบท | Deja Vu: ความกระจัดกระจายตามบริบทสำหรับ LLM ที่มีประสิทธิภาพ ณ เวลาอนุมาน | ไอซีเอ็มแอล |
การหาปริมาณ
วันที่ | คำหลัก | กระดาษ | สถานที่ |
---|
2024 | การหาปริมาณน้ำหนัก | การประเมินโมเดลภาษาขนาดใหญ่เชิงปริมาณ | อาร์ซิฟ |
2024 | การหาปริมาณน้ำหนัก | I-LLM: การอนุมานเฉพาะจำนวนเต็มที่มีประสิทธิภาพสำหรับโมเดลภาษาขนาดใหญ่บิตต่ำแบบควอนตัมเต็มจำนวน | อาร์ซิฟ |
2024 | การหาปริมาณน้ำหนัก | ABQ-LLM: การเร่งการอนุมานเชิงปริมาณแบบบิตตามอำเภอใจสำหรับโมเดลภาษาขนาดใหญ่ | อาร์ซิฟ |
2024 | Co-Quantization การเปิดใช้งานน้ำหนัก | การหมุนเวียนและการเรียงสับเปลี่ยนสำหรับการจัดการค่าผิดปกติขั้นสูงและการหาปริมาณ LLM อย่างมีประสิทธิภาพ | ประสาทไอพีเอส |
2024 | การหาปริมาณน้ำหนัก | OmniQuant: การหาปริมาณที่ปรับเทียบรอบทิศทางสำหรับโมเดลภาษาขนาดใหญ่ | ไอซีแอลอาร์ |
2023 | การหาปริมาณน้ำหนัก | Flexround: การปัดเศษที่เรียนรู้ได้โดยอิงตามการแบ่งตามองค์ประกอบสำหรับการวัดปริมาณหลังการฝึกอบรม | ไอซีเอ็มแอล |
2023 | การหาปริมาณน้ำหนัก | การปราบปรามค่าผิดปกติ+: การหาปริมาณที่แม่นยำของแบบจำลองภาษาขนาดใหญ่โดยการเปลี่ยนและปรับขนาดที่เทียบเท่าและเหมาะสมที่สุด | เอ็มแอลพี |
2023 | การหาปริมาณน้ำหนัก | OWQ: การหาปริมาณน้ำหนักที่รับรู้ค่าผิดปกติเพื่อการปรับแต่งและการอนุมานแบบจำลองภาษาขนาดใหญ่อย่างมีประสิทธิภาพ | AAAI |
2023 | การหาปริมาณน้ำหนัก | Gptq: การหาปริมาณหลังการฝึกที่แม่นยำสำหรับหม้อแปลงที่ผ่านการฝึกอบรมล่วงหน้าแบบกำเนิด | ไอซีแอลอาร์ |
2023 | การหาปริมาณน้ำหนัก | การหาปริมาณการสะสมแบบไดนามิกเพื่อการฝึกอบรมหม้อแปลงที่มีประสิทธิภาพ | เอ็มแอลพี |
2023 | การหาปริมาณน้ำหนัก | การฝึกอบรมหม้อแปลงไฟฟ้าที่รับรู้ถึงปริมาณและการบีบอัดเทนเซอร์เพื่อความเข้าใจภาษาธรรมชาติ | บทสัมภาษณ์ |
2023 | การหาปริมาณน้ำหนัก | QLoRA: การปรับแต่ง LLM เชิงปริมาณอย่างมีประสิทธิภาพ | ประสาทไอพีเอส |
2023 | การหาปริมาณน้ำหนัก | การฝึกอบรมที่มีความเสถียรและมีความแม่นยำต่ำสำหรับโมเดลภาษาวิชั่นขนาดใหญ่ | ประสาทไอพีเอส |
2023 | การหาปริมาณน้ำหนัก | ปริมาณที่ต้องการ: วิธีการหาปริมาณแบบไม่เชื่อเรื่องงานสำหรับโมเดลภาษาที่ได้รับการฝึกอบรมล่วงหน้า | เอซีแอล |
2023 | การหาปริมาณน้ำหนัก | Olive: การเร่งโมเดลภาษาขนาดใหญ่ผ่านการหาปริมาณคู่ค่าผิดปกติที่เป็นมิตรกับฮาร์ดแวร์ | ไอเอสก้า |
2023 | การหาปริมาณน้ำหนัก | Awq: การหาปริมาณน้ำหนักของ Activationaware สำหรับการบีบอัดและการเร่งความเร็ว llm | อาร์เอ็กซ์ |
2023 | การหาปริมาณน้ำหนัก | Spqr: การแสดงแบบกระจายสำหรับการบีบอัดน้ำหนัก llm ที่เกือบจะสูญเสีย | อาร์เอ็กซ์ |
2023 | การหาปริมาณน้ำหนัก | SqueezeLLM: การหาปริมาณหนาแน่นและกระจัดกระจาย | อาร์เอ็กซ์ |
2023 | การหาปริมาณน้ำหนัก | LLM-QAT: การฝึกอบรมการรับรู้เชิงปริมาณโดยปราศจากข้อมูลสำหรับโมเดลภาษาขนาดใหญ่ | อาร์เอ็กซ์ |
2022 | การเปิดใช้งานปริมาณ | Gact: การเปิดใช้งานการฝึกอบรมแบบบีบอัดสำหรับสถาปัตยกรรมเครือข่ายทั่วไป | ไอซีเอ็มแอล |
2022 | การหาปริมาณจุดคงที่ | เพิ่ม Vision Transformer ด้วย Sparsity และ Quantization ที่เป็นมิตรกับ GPU | เอซีแอล |
2021 | การเปิดใช้งานปริมาณ | Ac-gc: การบีบอัดการเปิดใช้งานที่สูญเสียพร้อมการรับประกันการลู่เข้า | ประสาทไอพีเอส |
การเร่งความเร็วแบบไดนามิก
อินพุตการตัดแต่งกิ่ง
วันที่ | คำหลัก | กระดาษ | สถานที่ |
---|
2024 | การลบโทเค็นตามคะแนน | การตัดแต่งกิ่งแบบปรับเปลี่ยนโครงสร้างพร้อมท์พร้อมท์เพื่อการสร้าง LLM ที่มีประสิทธิภาพ | คอล์ม |
2024 | การลบโทเค็นตามคะแนน | LazyLLM: การตัดโทเค็นแบบไดนามิกเพื่อการอนุมาน LLM ตามบริบทแบบยาวที่มีประสิทธิภาพ | อาร์ซิฟ |
2024 | การกำจัดโทเค็นตามการเรียนรู้ | LLMLingua-2: การกลั่นข้อมูลเพื่อการบีบอัดพร้อมท์งานแบบไม่เชื่อเรื่องพระเจ้าที่มีประสิทธิภาพและซื่อสัตย์ | เอซีแอล |
2024 | การกำจัดโทเค็นตามการเรียนรู้ | หน่วยความจำบริบทที่บีบอัดสำหรับการโต้ตอบโมเดลภาษาออนไลน์ | ไอซีแอลอาร์ |
2023 | การลบโทเค็นตามคะแนน | การตัดโทเค็นที่รับรู้ถึงข้อจำกัดและการจัดอันดับเพื่อการอนุมานหม้อแปลงที่มีประสิทธิภาพ | เคดีดี |
2023 | การกำจัดโทเค็นตามการเรียนรู้ | PuMer: การตัดแต่งและรวมโทเค็นเพื่อโมเดลภาษาการมองเห็นที่มีประสิทธิภาพ | เอซีแอล |
2023 | การกำจัดโทเค็นตามการเรียนรู้ | Infor-Coef: การสุ่มตัวอย่างโทเค็นแบบไดนามิกตามคอขวดของข้อมูลสำหรับโมเดลภาษาที่กะทัดรัดและมีประสิทธิภาพ | อาร์เอ็กซ์ |
2023 | การกำจัดโทเค็นตามการเรียนรู้ | SmartTrim: โทเค็นแบบปรับได้และการตัดพารามิเตอร์เพื่อโมเดลภาษาการมองเห็นที่มีประสิทธิภาพ | อาร์เอ็กซ์ |
2022 | การกำจัดโทเค็นตามการเรียนรู้ | Transkimmer: Transformer เรียนรู้การใช้ Layer-wise Skim | เอซีแอล |
2022 | การลบโทเค็นตามคะแนน | เรียนรู้การตัดแต่งโทเค็นสำหรับ Transformers | เคดีดี |
2021 | การกำจัดโทเค็นตามการเรียนรู้ | TR-BERT: การลดโทเค็นแบบไดนามิกเพื่อเร่งการอนุมานของ BERT | เอ็นเอเอซีแอล |
2021 | การลบโทเค็นตามคะแนน | สถาปัตยกรรมความสนใจแบบเบาบางที่มีประสิทธิภาพพร้อมโทเค็นแบบเรียงซ้อนและการตัดแต่งส่วนหัว | HPCA |
การออกแบบระบบ
การเพิ่มประสิทธิภาพการปรับใช้
วันที่ | คำหลัก | กระดาษ | สถานที่ |
---|
2024 | การเพิ่มประสิทธิภาพฮาร์ดแวร์ | LUT TENSOR CORE: ตารางการค้นหาช่วยให้สามารถเร่งการอนุมาน LLM บิตต่ำได้อย่างมีประสิทธิภาพ | อาร์ซิฟ |
2023 | การถ่ายฮาร์ดแวร์ | FlexGen: การอนุมานแบบสร้างปริมาณงานสูงของโมเดลภาษาขนาดใหญ่ด้วย GPU ตัวเดียว | PMLR |
2023 | การถ่ายฮาร์ดแวร์ | ให้บริการการอนุมานแบบกระจายอย่างรวดเร็วสำหรับโมเดลภาษาขนาดใหญ่ | อาร์เอ็กซ์ |
2022 | การอนุมานร่วมกัน | กลีบดอกไม้: การอนุมานร่วมกันและการปรับแต่งแบบจำลองขนาดใหญ่อย่างละเอียด | อาร์เอ็กซ์ |
2022 | การถ่ายฮาร์ดแวร์ | การอนุมาน DeepSpeed: ช่วยให้สามารถอนุมานที่มีประสิทธิภาพของโมเดลหม้อแปลงไฟฟ้าในระดับที่ไม่เคยมีมาก่อน | อีอีอี SC22 |
รองรับโครงสร้างพื้นฐาน
วันที่ | คำหลัก | กระดาษ | สถานที่ |
---|
2024 | อุปกรณ์ขอบ | MobileLLM: การเพิ่มประสิทธิภาพโมเดลภาษาพารามิเตอร์มูลค่าหลายพันล้านสำหรับกรณีการใช้งานบนอุปกรณ์ | ไอซีเอ็มแอล |
2024 | อุปกรณ์ขอบ | EdgeShard: การอนุมาน LLM ที่มีประสิทธิภาพผ่านการประมวลผล Edge แบบทำงานร่วมกัน | อาร์ซิฟ |
2024 | อุปกรณ์ขอบ | LLM ที่มีความแม่นยำใดๆ: การปรับใช้ LLM หลายขนาดที่มีราคาต่ำ | ไอซีเอ็มแอล |
2024 | อุปกรณ์ขอบ | โซลูชันหน่วยความจำที่ก้าวล้ำเพื่อประสิทธิภาพที่ดีขึ้นในการอนุมาน llm | อีอีอี ไมโคร |
2024 | อุปกรณ์ขอบ | จุดหลอมเหลว: การประเมินอุปกรณ์แปลงภาษาแบบเคลื่อนที่ | โมบิคอม |
2024 | อุปกรณ์ขอบ | LLM เป็นบริการระบบบนอุปกรณ์เคลื่อนที่ | อาร์ซิฟ |
2024 | อุปกรณ์ขอบ | LocMoE: MoE ค่าใช้จ่ายต่ำสำหรับการฝึกอบรมโมเดลภาษาขนาดใหญ่ | อาร์ซิฟ |
2024 | อุปกรณ์ขอบ | Jetmoe: เข้าถึงการแสดง llama2 ด้วยเงิน 0.1 ล้านดอลลาร์ | อาร์ซิฟ |
2023 | อุปกรณ์ขอบ | การฝึกอบรมโมเดลภาษาประสาทคำศัพท์ขนาดใหญ่โดยการเรียนรู้แบบสมาพันธ์ส่วนตัวสำหรับอุปกรณ์ที่มีทรัพยากรจำกัด | ICASSP |
2023 | อุปกรณ์ขอบ | การปรับแต่ง LLM แบบละเอียดแบบสหพันธรัฐบนขอบมาก: ดี, แย่, น่าเกลียด | อาร์เอ็กซ์ |
2023 | ห้องสมุด | Colossal-AI: ระบบการเรียนรู้เชิงลึกแบบครบวงจรสำหรับการฝึกอบรมคู่ขนานขนาดใหญ่ | ไอซีพีพี |
2023 | ห้องสมุด | GPT-NeoX-20B: โมเดลภาษาแบบถอยหลังอัตโนมัติแบบโอเพ่นซอร์ส | เอซีแอล |
2023 | อุปกรณ์ขอบ | โมเดลภาษาขนาดใหญ่เสริมพลัง AI Edge อัตโนมัติสำหรับระบบอัจฉริยะที่เชื่อมต่อ | อาร์เอ็กซ์ |
2022 | ห้องสมุด | การอนุมาน DeepSpeed: ช่วยให้สามารถอนุมานที่มีประสิทธิภาพของโมเดลหม้อแปลงไฟฟ้าในระดับที่ไม่เคยมีมาก่อน | อีอีอี SC22 |
2022 | ห้องสมุด | Alpa: การทำให้ระบบคู่ขนานระหว่างและภายในผู้ปฏิบัติงานเป็นอัตโนมัติเพื่อการเรียนรู้เชิงลึกแบบกระจาย | OSDI |
2022 | อุปกรณ์ขอบ | EdgeFormer: หม้อแปลงที่มีประสิทธิภาพสำหรับการสร้าง Seq2seq บนอุปกรณ์ | อาร์เอ็กซ์ |
2022 | อุปกรณ์ขอบ | ProFormer: สู่หม้อแปลงที่อิงการฉายภาพ LSH บนอุปกรณ์ | เอซีแอล |
2021 | อุปกรณ์ขอบ | สร้างคุณสมบัติเพิ่มเติมด้วยการดำเนินการราคาประหยัดสำหรับ BERT | เอซีแอล |
2021 | อุปกรณ์ขอบ | SqueezeBERT: คอมพิวเตอร์วิทัศน์สามารถสอน NLP เกี่ยวกับโครงข่ายประสาทเทียมที่มีประสิทธิภาพได้อย่างไร | ความยั่งยืนNLP |
2020 | อุปกรณ์ขอบ | Lite Transformer พร้อมความสนใจในระยะไกลและระยะสั้น | อาร์เอ็กซ์ |
2019 | ห้องสมุด | Megatron-LM: การฝึกอบรมโมเดลภาษาพารามิเตอร์หลายพันล้านโดยใช้โมเดล Parallelism | อีอีอี SC22 |
2018 | ห้องสมุด | Mesh-TensorFlow: การเรียนรู้เชิงลึกสำหรับซูเปอร์คอมพิวเตอร์ | ประสาทไอพีเอส |
ระบบอื่นๆ
วันที่ | คำหลัก | กระดาษ | สถานที่ |
---|
2023 | ระบบอื่นๆ | Tabi: ระบบอนุมานหลายระดับที่มีประสิทธิภาพสำหรับโมเดลภาษาขนาดใหญ่ | ยูโรซิส |
2023 | ระบบอื่นๆ | การค้นหาลำดับที่ใกล้เคียงกันในระดับมากสำหรับการประเมินการจดจำโมเดลภาษาขนาดใหญ่ | PACMMOD |
ตัวชี้วัดและเกณฑ์มาตรฐานการประเมินประสิทธิภาพทรัพยากร
- เมตริกการคำนวณ
เมตริก | คำอธิบาย | ตัวอย่างการใช้งาน |
---|
FLOPs (การดำเนินการจุดลอยตัว) | จำนวนการดำเนินการทางคณิตศาสตร์กับจำนวนจุดลอยตัว | [ล้มเหลว] |
เวลาการฝึกอบรม | ระยะเวลารวมที่จำเป็นสำหรับการฝึกอบรม โดยทั่วไปจะวัดเป็นนาที ชั่วโมง หรือวันของนาฬิกาแขวน | [นาที วัน] [ชั่วโมง] |
เวลาอนุมาน/เวลาแฝง | เวลาเฉลี่ยที่ต้องการสร้างเอาต์พุตหลังจากได้รับอินพุต โดยทั่วไปจะวัดเป็นเวลานาฬิกาแขวนหรือเวลานาฬิกา CPU/GPU/TPU ในหน่วยมิลลิวินาทีหรือวินาที | [เวลาแฝงจากต้นทางถึงปลายทางเป็นวินาที] [เวลาแฝงในการสร้างโทเค็นถัดไปในหน่วยมิลลิวินาที] |
ปริมาณงาน | อัตราการสร้างโทเค็นเอาท์พุตหรืองานเสร็จสมบูรณ์ โดยทั่วไปจะวัดเป็นโทเค็นต่อวินาที (TPS) หรือการสืบค้นต่อวินาที (QPS) | [โทเค็น/วินาที] [สอบถาม] |
อัตราส่วนการเร่งความเร็ว | การปรับปรุงความเร็วในการอนุมานเมื่อเปรียบเทียบกับแบบจำลองพื้นฐาน | [เร่งเวลาการอนุมาน] [เพิ่มความเร็วในการรับส่งข้อมูล] |
- การวัดหน่วยความจำ
เมตริก | คำอธิบาย | ตัวอย่างการใช้งาน |
---|
จำนวนพารามิเตอร์ | จำนวนตัวแปรที่ปรับได้ในโครงข่ายประสาทเทียมของ LLM | [จำนวนพารามิเตอร์] |
ขนาดรุ่น | พื้นที่เก็บข้อมูลที่จำเป็นสำหรับการจัดเก็บโมเดลทั้งหมด | [การใช้หน่วยความจำสูงสุดในหน่วย GB] |
⚡️ การวัดพลังงาน
เมตริก | คำอธิบาย | ตัวอย่างการใช้งาน |
---|
การใช้พลังงาน | พลังงานไฟฟ้าที่ใช้ระหว่างวงจรชีวิตของ LLM | [กิโลวัตต์ชั่วโมง] |
การปล่อยก๊าซคาร์บอน | การปล่อยก๊าซเรือนกระจกที่เกี่ยวข้องกับการใช้พลังงานของแบบจำลอง | [กก.CO2eq] |
ต่อไปนี้เป็นแพ็คเกจซอฟต์แวร์ที่ออกแบบมาเพื่อการติดตามการใช้พลังงานและการปล่อยก๊าซคาร์บอนแบบเรียลไทม์
- โค้ดคาร์บอน
- คาร์บอนแทรคเกอร์
- การทดลอง-ผลกระทบ-ตัวติดตาม
คุณอาจพบว่าข้อมูลต่อไปนี้มีประโยชน์ในการคาดการณ์การใช้พลังงานและการปล่อยก๊าซคาร์บอนไดออกไซด์ก่อนการฝึกอบรมจริงหรือ
- ผลกระทบของ ML CO2
- LLMคาร์บอน
- การวัดต้นทุนทางการเงิน
เมตริก | คำอธิบาย | ตัวอย่างการใช้งาน |
---|
ดอลลาร์ต่อพารามิเตอร์ | ต้นทุนรวมของการฝึกอบรม (หรือการดำเนินการ) LLM ตามจำนวนพารามิเตอร์ | |
- เมตริกการสื่อสารเครือข่าย
เมตริก | คำอธิบาย | ตัวอย่างการใช้งาน |
---|
ปริมาณการสื่อสาร | จำนวนข้อมูลทั้งหมดที่ส่งผ่านเครือข่ายระหว่างการดำเนินการ LLM หรือการฝึกอบรม | [ปริมาณการสื่อสารในหน่วยวัณโรค] |
ตัวชี้วัดอื่น ๆ
เมตริก | คำอธิบาย | ตัวอย่างการใช้งาน |
---|
อัตราส่วนกำลังอัด | การลดขนาดของรุ่นบีบอัดเมื่อเทียบกับรุ่นเดิม | [อัตราการบีบอัด] [เปอร์เซ็นต์ของน้ำหนักที่เหลืออยู่] |
ความภักดี/ความซื่อสัตย์ | ความคล้ายคลึงระหว่างโมเดลครูและนักเรียนในแง่ของความสอดคล้องของการทำนายและการจัดตำแหน่งการแจกแจงความน่าจะเป็นที่คาดการณ์ไว้ | [ความภักดี] [ความซื่อสัตย์] |
ความทนทาน | การต้านทานต่อการโจมตีของฝ่ายตรงข้าม ซึ่งการปรับเปลี่ยนอินพุตเล็กน้อยอาจส่งผลต่อเอาท์พุตของโมเดลได้ | [ความแม่นยำหลังการโจมตี หมายเลขแบบสอบถาม] |
การเพิ่มประสิทธิภาพพาเรโต | การแลกเปลี่ยนที่เหมาะสมที่สุดระหว่างปัจจัยการแข่งขันต่างๆ | [ชายแดน Pareto (ต้นทุนและความแม่นยำ)] [ชายแดน Pareto (ประสิทธิภาพและ FLOP)] |
เกณฑ์มาตรฐาน
เกณฑ์มาตรฐาน | คำอธิบาย | กระดาษ |
---|
เกณฑ์มาตรฐาน NLP ทั่วไป | ชุดเกณฑ์มาตรฐาน NLP ทั่วไปมากมาย เช่น GLUE, SuperGLUE, WMT และ SQuAD เป็นต้น | ภาพรวมที่ครอบคลุมของโมเดลภาษาขนาดใหญ่ |
ไดนาบอร์ด | แพลตฟอร์มโอเพ่นซอร์สสำหรับการประเมินโมเดล NLP ในระบบคลาวด์ นำเสนอการโต้ตอบแบบเรียลไทม์และการประเมินคุณภาพแบบจำลองแบบองค์รวมด้วย Dynascore ที่ปรับแต่งได้ | Dynaboard: แพลตฟอร์มการประเมินผลแบบบริการสำหรับการเปรียบเทียบยุคหน้าแบบองค์รวม |
QA ที่มีประสิทธิภาพ | ความท้าทายในการตอบคำถาม (QA) แบบโอเพ่นโดเมนที่ NeurIPS 2020 ซึ่งมุ่งเน้นไปที่การสร้างระบบ QA ที่แม่นยำและมีประสิทธิภาพหน่วยความจำ | การแข่งขัน NeurIPS 2020 EfficientQA: ระบบ การวิเคราะห์ และบทเรียนที่ได้รับ |
งานที่ใช้ร่วมกัน SustaiNLP 2020 | ความท้าทายสำหรับการพัฒนาแบบจำลอง NLP ที่ประหยัดพลังงานโดยการประเมินประสิทธิภาพในงาน NLU ทั้งแปดงานโดยใช้ตัวชี้วัด SuperGLUE และประเมินการใช้พลังงานในระหว่างการอนุมาน | ภาพรวมของงานที่ใช้ร่วมกัน SustaiNLP 2020 |
ELUE (การประเมินความเข้าใจภาษาที่มีประสิทธิภาพ) | แพลตฟอร์มมาตรฐานสำหรับการประเมินประสิทธิภาพของโมเดล NLP ในงานต่างๆ โดยเสนอการวัดออนไลน์และต้องการเพียงไฟล์คำจำกัดความของโมเดล Python เท่านั้นในการส่ง | สู่ NLP ที่มีประสิทธิภาพ: การประเมินมาตรฐานและพื้นฐานที่แข็งแกร่ง |
VLUE (การประเมินความเข้าใจภาษาวิสัยทัศน์) | เกณฑ์มาตรฐานที่ครอบคลุมสำหรับการประเมินแบบจำลองภาษาวิสัยทัศน์ในงานต่างๆ โดยนำเสนอแพลตฟอร์มออนไลน์สำหรับการประเมินและการเปรียบเทียบ | VLUE: เกณฑ์มาตรฐานแบบหลายงานสำหรับการประเมินแบบจำลองภาษาการมองเห็น |
สนามลองเรนจ์อารีน่า (LAG) | ชุดเบนช์มาร์กประเมินโมเดล Transformer ที่มีประสิทธิภาพในงานที่มีบริบทยาว ครอบคลุมรูปแบบและประเภทการใช้เหตุผลที่หลากหลาย ในขณะเดียวกันก็ให้การประเมินภายใต้ข้อจำกัดของทรัพยากรที่ได้รับการควบคุม โดยเน้นประสิทธิภาพในโลกแห่งความเป็นจริง | สนามกีฬาระยะไกล: เกณฑ์มาตรฐานสำหรับหม้อแปลงไฟฟ้าที่มีประสิทธิภาพ |
MS MARCO ที่ตระหนักถึงประสิทธิภาพ | เกณฑ์มาตรฐานการดึงข้อมูล MS MARCO ที่ได้รับการปรับปรุง ซึ่งรวมการวัดประสิทธิภาพ เช่น เวลาแฝงต่อแบบสอบถามและต้นทุน ควบคู่ไปกับความแม่นยำ ช่วยอำนวยความสะดวกในการประเมินระบบ IR ที่ครอบคลุม | การก้าวไปไกลกว่าความแม่นยำของงานดาวน์สตรีมสำหรับการเปรียบเทียบการดึงข้อมูล |
อ้างอิง
หากคุณพบว่ารายการงานวิจัยนี้มีประโยชน์ในการวิจัยของคุณ โปรดพิจารณาการอ้างอิง:
@article{bai2024beyond,
title={Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models},
author={Bai, Guangji and Chai, Zheng and Ling, Chen and Wang, Shiyu and Lu, Jiaying and Zhang, Nan and Shi, Tingwei and Yu, Ziyang and Zhu, Mengdan and Zhang, Yifei and others},
journal={arXiv preprint arXiv:2401.00625},
year={2024}
}