rvq vae gpt
0.0.4
我尝试将 Soundstream 设计应用于学习的文本标记化,然后将分层转换器应用于文本生成。
Soundstream 将被修改以利用所有本地注意力。实验将比较 VQ、RVQ 以及多头 VQ
一位研究员朋友告诉我这可能会失败?但无论如何我都会尝试一下,yolo。如果它不起作用,也许它对基因组学仍然有用。想一想,为什么它不能至少学习二元组(对于英语)和密码子(对于基因组学)?为什么我们没有分层预测编码?我们应该
更新:一些现场实验
在输入和重建之间的自动编码器训练中添加差异,以便可以轻松检查失败案例
@misc{https://doi.org/10.48550/arxiv.2107.03312,标题 = {SoundStream:端到端神经音频编解码器},作者 = {Zeghidour、Neil 和 Luebs、Alejandro 和 Omran、Ahmed 和 Skoglund, Jan 和 Tagliasacchi、Marco},出版商 = {arXiv},网址 = {https://arxiv.org/abs/2107.03312},年份 = {2021}}
@unknown{unknown,author = {Lee, Doyup 和 Kim, Chiheon 和 Kim, Saehoon 和 Cho, Minsu 和 Han, Wook-Shin},年 = {2022},月 = {03},title = {使用自回归图像生成残余量化}}
@article{Sunkara2022NoMS,标题 = {不再使用跨步卷积或池化:低分辨率图像和小物体的新 CNN 构建块},作者 = {Raja Sunkara 和 Tie Luo},期刊 = {ArXiv},年份 = {2022 },体积 = {abs/2208.03641}}
@inproceedings{Fifty2024RestructuringVQ,标题 = {用旋转技巧重构矢量量化},作者 = {Christopher Fifty 和 Ronald G. Junkins 和 Dennis Duan 和 Aniketh Iger 和 Jerry W. Liu 和 Ehsan Amid 和 Sebastian Thrun 和 Christopher R'e} ,年份 = {2024},网址 = {https://api.semanticscholar.org/CorpusID:273229218}}