rvq vae gpt
0.0.4
私の試みは、テキストの学習されたトークン化に Soundstream デザインを適用し、次にテキスト生成に階層トランスフォーマーを適用することです。
サウンドストリームは、すべてのローカル アテンションを使用するように変更されます。実験では、VQ、RVQ、およびマルチヘッド VQ を比較します。
研究者の友人から、これは失敗する可能性が高いと言われました??でもとにかく試してみます、ヨロ。うまくいかない場合でも、おそらくゲノミクスには役立つかもしれません。考えてみれば、なぜ少なくともバイグラム (英語の場合) とコドン (ゲノミクスの場合) を学習できないのでしょうか?なぜ階層型予測コーディングがないのでしょうか?私たちはすべきです
更新: いくつかのライブ実験
@misc { https://doi.org/10.48550/arxiv.2107.03312 ,
title = { SoundStream: An End-to-End Neural Audio Codec } ,
author = { Zeghidour, Neil and Luebs, Alejandro and Omran, Ahmed and Skoglund, Jan and Tagliasacchi, Marco } ,
publisher = { arXiv } ,
url = { https://arxiv.org/abs/2107.03312 } ,
year = { 2021 }
}
@unknown { unknown ,
author = { Lee, Doyup and Kim, Chiheon and Kim, Saehoon and Cho, Minsu and Han, Wook-Shin } ,
year = { 2022 } ,
month = { 03 } ,
title = { Autoregressive Image Generation using Residual Quantization }
}
@article { Sunkara2022NoMS ,
title = { No More Strided Convolutions or Pooling: A New CNN Building Block for Low-Resolution Images and Small Objects } ,
author = { Raja Sunkara and Tie Luo } ,
journal = { ArXiv } ,
year = { 2022 } ,
volume = { abs/2208.03641 }
}
@inproceedings { Fifty2024RestructuringVQ ,
title = { Restructuring Vector Quantization with the Rotation Trick } ,
author = { Christopher Fifty and Ronald G. Junkins and Dennis Duan and Aniketh Iger and Jerry W. Liu and Ehsan Amid and Sebastian Thrun and Christopher R'e } ,
year = { 2024 } ,
url = { https://api.semanticscholar.org/CorpusID:273229218 }
}