rvq vae gpt
0.0.4
我嘗試將 Soundstream 設計應用於學習的文本標記化,然後將分層轉換器應用於文字生成。
Soundstream 將被修改以利用所有本地註意力。實驗將比較 VQ、RVQ 以及多頭 VQ
一位研究員朋友告訴我這可能會失敗?但無論如何我都會嘗試一下,yolo。如果它不起作用,也許它對基因組學仍然有用。想一想,為什麼它不能至少學習二元組(對於英語)和密碼子(對於基因組學)?為什麼我們沒有分層預測編碼?我們應該
更新:一些現場實驗
在輸入和重建之間的自動編碼器訓練中添加差異,以便可以輕鬆檢查失敗案例
@misc{https://doi.org/10.48550/arxiv.2107.03312,標題 = {SoundStream:端對端神經音訊編解碼器},作者 = {Zeghidour、Neil 和 Luebs、Alejandro 和 Omran、Ahmed 和 Skoglund, Jan和Tagliasacchi、Marco},出版商= {arXiv},網址= {https://arxiv.org/abs/2107.03312},年份= {2021}}
@unknown{unknown,author = {Lee, Doyup 和Kim, Chiheon 和Kim, Saehoon 和Cho, Minsu 和Han, Wook-Shin},年= {2022},月= {03},title = {使用自回歸圖像產生殘餘量化}}
@article{Sunkara2022NoMS,標題= {不再使用跨步卷積或池化:低分辨率圖像和小物體的新CNN 構建塊},作者= {Raja Sunkara 和Tie Luo},期刊= {ArXiv},年份= {2022 },體積 = {abs/2208.03641}}
@inproceedings{Fifty2024RestructuringVQ,標題 = {用旋轉技巧重構向量量化},作者 = {Christopher Fifty 和 Ronald G. Junkins 和 Dennis Duan 和 Aniketh Iger 和 Jerry W. Liu 和 Ehsan Amid 和 Sebastian Thrun 和 Christopher R'e} ,年份= {2024},url = {https://api.semanticscholar.org/CorpusID:273229218}}