استكشافات لبعض التقنيات الحديثة المحيطة بفك التشفير التأملي
لدي أيضًا بعض الأفكار الخاصة بي والتي سأحاول مشاركتها في هذا المستودع، إذا نجحت. الهدف هو استخدامه في البداية لتسريع وحدة فك ترميز النص إلى الدلالات في Spear-TTS
في نظام الخروج المبكر، قم بتخزين الطبقة المخفية مؤقتًا أثناء فك تشفير المواصفات، حيث تشترك النماذج الصغيرة والكبيرة في نفس الطبقات القليلة الأولى
للخروج المبكر، السماح برأس كتلة محول إضافي (منفصل عن ساق المحول الرئيسي)
اكتشف فك تشفير المواصفات المجمعة - قد تتقدم صفوف مختلفة بمعدلات مختلفة
تحسين فك تشفير المواصفات المجمعة بشكل أكبر، نظرًا لفقدان بعض الأداء من جميع الفهرسة - يبدو أن الأمر سيستغرق بعض العمل حتى تصبح هذه التقنية قابلة للاستخدام فعليًا
جعل فك تشفير المواصفات المجمعة يعمل مع استراتيجية الخروج المبكر
استكمال أخذ العينات التأملية باستخدام فكرة المحول النبوي - يبدو أنها تعمل بشكل جيد! ؟
احصل على بعض مخططات Wandb وشاهد كيف يقارن النبي بإستراتيجية الخروج المبكر، وشاركها في المستودع
قم أيضًا بإجراء تجارب لمعرفة ما إذا كان المحول النبي يجلب أي فائدة لخسارة النموذج الرئيسي. لم تقم ورقة النبي الأصلية إلا بإسقاط خطي بسيط
بالنسبة لاستراتيجية الخروج المبكر، حاول جمع آخر تضمين تم تخزينه مؤقتًا بشكل عشوائي مرة أخرى إلى نفس النموذج (إعادة تدوير alphafold2)، واقتصاصه بشكل عشوائي على طول التسلسل، وتدريب فقدان الخروج المبكر بهذه الطريقة. معرفة ما إذا كان يمكن للمرء تحسين جاما بهذه الطريقة
خصص صباحًا للتحسينات الدقيقة
@inproceedings { Leviathan2022FastIF ,
title = { Fast Inference from Transformers via Speculative Decoding } ,
author = { Yaniv Leviathan and Matan Kalman and Y. Matias } ,
booktitle = { International Conference on Machine Learning } ,
year = { 2022 } ,
url = { https://api.semanticscholar.org/CorpusID:254096365 }
}
@inproceedings { sun2023spectr ,
title = { SpecTr: Fast Speculative Decoding via Optimal Transport } ,
author = { Ziteng Sun and Ananda Theertha Suresh and Jae Hun Ro and Ahmad Beirami and Himanshu Jain and Felix Yu and Michael Riley and Sanjiv Kumar } ,
booktitle = { Workshop on Efficient Systems for Foundation Models @ ICML2023 } ,
year = { 2023 } ,
url = { https://openreview.net/forum?id=d0mGsaheuT }
}
@article { Chen2023AcceleratingLL ,
title = { Accelerating Large Language Model Decoding with Speculative Sampling } ,
author = { Charlie Chen and Sebastian Borgeaud and Geoffrey Irving and Jean-Baptiste Lespiau and L. Sifre and John M. Jumper } ,
journal = { ArXiv } ,
year = { 2023 } ,
volume = { abs/2302.01318 } ,
url = { https://api.semanticscholar.org/CorpusID:256503945 }
}
@article { Yan2020ProphetNetPF ,
title = { ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training } ,
author = { Yu Yan and Weizhen Qi and Yeyun Gong and Dayiheng Liu and Nan Duan and Jiusheng Chen and Ruofei Zhang and Ming Zhou } ,
journal = { ArXiv } ,
year = { 2020 } ,
volume = { abs/2001.04063 } ,
url = { https://api.semanticscholar.org/CorpusID:210164665 }
}
@article { Zhang2023DraftV ,
title = { Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding } ,
author = { Jinchao Zhang and Jue Wang and Huan Li and Lidan Shou and Ke Chen and Gang Chen and Sharad Mehrotra } ,
journal = { ArXiv } ,
year = { 2023 } ,
volume = { abs/2309.08168 } ,
url = { https://api.semanticscholar.org/CorpusID:262013673 }
}
@misc { medusa ,
author = { Tianle Cai and Yuhong Li and Zhengyang Geng and Hongwu Peng and Tri Dao } ,
title = { Medusa: Simple Framework for Accelerating LLM Generation with Multiple Decoding Heads } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/FasterDecoding/Medusa} } ,
}