추측적 디코딩을 둘러싼 최근 기술 탐색
또한 제가 시도하고 효과가 있다면 이 저장소에서 공유할 몇 가지 아이디어가 있습니다. 목표는 처음에 Spear-TTS에서 텍스트-의미 체계 디코더 속도를 높이기 위해 이를 사용하는 것입니다.
초기 종료 방식에서는 소형 및 대형 모델이 동일한 처음 몇 개의 레이어를 공유하므로 사양 디코딩 중에 숨겨진 레이어를 캐시합니다.
조기 종료를 위해 추가 변압기 블록 헤드를 허용합니다(주 변압기 스템과 별도로).
일괄 사양 디코딩 파악 - 서로 다른 행이 서로 다른 속도로 진행될 수 있음
모든 인덱싱에서 일부 성능이 손실되므로 일괄 사양 디코딩을 더욱 최적화합니다. 이 기술을 실제로 사용할 수 있으려면 약간의 작업이 필요할 것 같습니다.
조기 종료 전략을 사용하여 일괄 사양 디코딩 작업을 수행합니다.
선지자 변환기 아이디어를 사용한 완전한 추측 샘플링 - 잘 작동하는 것 같습니다! ?
WDB 차트를 가져와서 Prophet가 초기 종료 전략과 어떻게 비교되는지 확인하고 저장소에서 공유하세요.
또한 Prophet Transformer가 메인 모델 손실에 어떤 이점을 가져오는지 확인하기 위해 실험을 실행합니다. 원래의 선지자 논문은 단순한 선형 투영만을 수행했습니다.
초기 종료 전략의 경우 마지막 캐시된 임베딩을 동일한 모델(a la alphafold2 재활용)로 무작위로 합산하고 시퀀스 길이에 따라 무작위로 자르고 이러한 방식으로 초기 종료 손실을 훈련해 보세요. 이런 식으로 감마를 향상시킬 수 있는지 확인하십시오
오전 시간을 미세 최적화에 투자하세요
@inproceedings { Leviathan2022FastIF ,
title = { Fast Inference from Transformers via Speculative Decoding } ,
author = { Yaniv Leviathan and Matan Kalman and Y. Matias } ,
booktitle = { International Conference on Machine Learning } ,
year = { 2022 } ,
url = { https://api.semanticscholar.org/CorpusID:254096365 }
}
@inproceedings { sun2023spectr ,
title = { SpecTr: Fast Speculative Decoding via Optimal Transport } ,
author = { Ziteng Sun and Ananda Theertha Suresh and Jae Hun Ro and Ahmad Beirami and Himanshu Jain and Felix Yu and Michael Riley and Sanjiv Kumar } ,
booktitle = { Workshop on Efficient Systems for Foundation Models @ ICML2023 } ,
year = { 2023 } ,
url = { https://openreview.net/forum?id=d0mGsaheuT }
}
@article { Chen2023AcceleratingLL ,
title = { Accelerating Large Language Model Decoding with Speculative Sampling } ,
author = { Charlie Chen and Sebastian Borgeaud and Geoffrey Irving and Jean-Baptiste Lespiau and L. Sifre and John M. Jumper } ,
journal = { ArXiv } ,
year = { 2023 } ,
volume = { abs/2302.01318 } ,
url = { https://api.semanticscholar.org/CorpusID:256503945 }
}
@article { Yan2020ProphetNetPF ,
title = { ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training } ,
author = { Yu Yan and Weizhen Qi and Yeyun Gong and Dayiheng Liu and Nan Duan and Jiusheng Chen and Ruofei Zhang and Ming Zhou } ,
journal = { ArXiv } ,
year = { 2020 } ,
volume = { abs/2001.04063 } ,
url = { https://api.semanticscholar.org/CorpusID:210164665 }
}
@article { Zhang2023DraftV ,
title = { Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding } ,
author = { Jinchao Zhang and Jue Wang and Huan Li and Lidan Shou and Ke Chen and Gang Chen and Sharad Mehrotra } ,
journal = { ArXiv } ,
year = { 2023 } ,
volume = { abs/2309.08168 } ,
url = { https://api.semanticscholar.org/CorpusID:262013673 }
}
@misc { medusa ,
author = { Tianle Cai and Yuhong Li and Zhengyang Geng and Hongwu Peng and Tri Dao } ,
title = { Medusa: Simple Framework for Accelerating LLM Generation with Multiple Decoding Heads } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/FasterDecoding/Medusa} } ,
}