การสำรวจเทคนิคล่าสุดบางประการเกี่ยวกับการถอดรหัสแบบเก็งกำไร
มีแนวคิดบางอย่างของตัวเองที่ฉันจะพยายามแบ่งปันในที่เก็บข้อมูลนี้หากได้ผล เป้าหมายคือใช้เพื่อเร่งความเร็วตัวถอดรหัสข้อความเป็นความหมายใน Spear-TTS ในตอนแรก
ใน Early Exit Scheme ให้แคชเลเยอร์ที่ซ่อนอยู่ระหว่างการถอดรหัสข้อมูลจำเพาะ เนื่องจากรุ่นขนาดเล็กและขนาดใหญ่ใช้สองสามเลเยอร์แรกเหมือนกัน
สำหรับการออกก่อนกำหนด ให้ใช้หัวบล็อกหม้อแปลงเพิ่มเติม (แยกจากก้านหม้อแปลงหลัก)
ค้นหาการถอดรหัสข้อมูลจำเพาะแบบแบตช์ - แถวที่ต่างกันอาจเลื่อนไปในอัตราที่ต่างกัน
ปรับการถอดรหัสข้อมูลจำเพาะแบบแบตช์ให้เหมาะสมยิ่งขึ้น เนื่องจากสูญเสียประสิทธิภาพบางส่วนจากการจัดทำดัชนีทั้งหมด - ดูเหมือนว่าจะต้องใช้งานบางอย่างเพื่อให้เทคนิคนี้ใช้งานได้จริง
ทำให้การถอดรหัสข้อมูลจำเพาะแบบแบตช์ทำงานได้โดยใช้กลยุทธ์การออกก่อนกำหนด
การสุ่มตัวอย่างแบบเก็งกำไรที่สมบูรณ์ด้วยแนวคิดเกี่ยวกับศาสดาพยากรณ์ - ดูเหมือนว่าจะทำงานได้ดี! -
รับแผนภูมิไม้กายสิทธิ์และดูว่าศาสดาพยากรณ์เปรียบเทียบกับกลยุทธ์การออกก่อนกำหนดอย่างไร แบ่งปันในพื้นที่เก็บข้อมูล
ทำการทดลองเพื่อดูว่าหม้อแปลงศาสดาพยากรณ์มีประโยชน์ต่อการสูญเสียโมเดลหลักหรือไม่ กระดาษศาสดาพยากรณ์ดั้งเดิมเป็นเพียงการฉายภาพเชิงเส้นอย่างง่ายเท่านั้น
สำหรับกลยุทธ์การออกก่อนกำหนด ให้ลองสุ่มรวมการฝังแคชล่าสุดกลับไปยังโมเดลเดียวกัน (การรีไซเคิล a la alphafold2) ครอบตัดแบบสุ่มตามความยาวของลำดับ และฝึกการสูญเสียการออกก่อนเวลาด้วยวิธีนี้ ดูว่าจะมีใครสามารถปรับปรุงแกมม่าด้วยวิธีนี้ได้หรือไม่
อุทิศช่วงเช้าให้กับการเพิ่มประสิทธิภาพระดับไมโคร
@inproceedings { Leviathan2022FastIF ,
title = { Fast Inference from Transformers via Speculative Decoding } ,
author = { Yaniv Leviathan and Matan Kalman and Y. Matias } ,
booktitle = { International Conference on Machine Learning } ,
year = { 2022 } ,
url = { https://api.semanticscholar.org/CorpusID:254096365 }
}
@inproceedings { sun2023spectr ,
title = { SpecTr: Fast Speculative Decoding via Optimal Transport } ,
author = { Ziteng Sun and Ananda Theertha Suresh and Jae Hun Ro and Ahmad Beirami and Himanshu Jain and Felix Yu and Michael Riley and Sanjiv Kumar } ,
booktitle = { Workshop on Efficient Systems for Foundation Models @ ICML2023 } ,
year = { 2023 } ,
url = { https://openreview.net/forum?id=d0mGsaheuT }
}
@article { Chen2023AcceleratingLL ,
title = { Accelerating Large Language Model Decoding with Speculative Sampling } ,
author = { Charlie Chen and Sebastian Borgeaud and Geoffrey Irving and Jean-Baptiste Lespiau and L. Sifre and John M. Jumper } ,
journal = { ArXiv } ,
year = { 2023 } ,
volume = { abs/2302.01318 } ,
url = { https://api.semanticscholar.org/CorpusID:256503945 }
}
@article { Yan2020ProphetNetPF ,
title = { ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training } ,
author = { Yu Yan and Weizhen Qi and Yeyun Gong and Dayiheng Liu and Nan Duan and Jiusheng Chen and Ruofei Zhang and Ming Zhou } ,
journal = { ArXiv } ,
year = { 2020 } ,
volume = { abs/2001.04063 } ,
url = { https://api.semanticscholar.org/CorpusID:210164665 }
}
@article { Zhang2023DraftV ,
title = { Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding } ,
author = { Jinchao Zhang and Jue Wang and Huan Li and Lidan Shou and Ke Chen and Gang Chen and Sharad Mehrotra } ,
journal = { ArXiv } ,
year = { 2023 } ,
volume = { abs/2309.08168 } ,
url = { https://api.semanticscholar.org/CorpusID:262013673 }
}
@misc { medusa ,
author = { Tianle Cai and Yuhong Li and Zhengyang Geng and Hongwu Peng and Tri Dao } ,
title = { Medusa: Simple Framework for Accelerating LLM Generation with Multiple Decoding Heads } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/FasterDecoding/Medusa} } ,
}