rvq vae gpt
0.0.4
私の試みは、テキストの学習されたトークン化に Soundstream デザインを適用し、次にテキスト生成に階層トランスフォーマーを適用することです。
サウンドストリームは、すべてのローカル アテンションを使用するように変更されます。実験では、VQ、RVQ、およびマルチヘッド VQ を比較します。
研究者の友人から、これは失敗する可能性が高いと言われました??でもとにかく試してみます、ヨロ。うまくいかない場合でも、おそらくゲノミクスには役立つかもしれません。考えてみれば、なぜ少なくともバイグラム (英語の場合) とコドン (ゲノミクスの場合) を学習できないのでしょうか?なぜ階層型予測コーディングがないのでしょうか?私たちはすべきです
更新: いくつかのライブ実験
入力と再構築の間のオートエンコーダ トレーニングの差分を追加して、失敗ケースを簡単に調査できるようにします。
@misc{https://doi.org/10.48550/arxiv.2107.03312、タイトル = {SoundStream: エンドツーエンドのニューラル オーディオ コーデック}、著者 = {Zeghidour、Neil と Luebs、Alejandro と Omran、Ahmed と Skoglund、 Jan と Tagliasacchi、Marco}、発行者 = {arXiv}、URL = {https://arxiv.org/abs/2107.03312}、年 = {2021}}
@unknown{unknown,author = {リー、ドヨプとキム、チホンとキム、セフンとチョ、ミンスとハン、ウクシン}、年 = {2022}、月 = {03}、タイトル = {を使用した自己回帰画像生成残差量子化}}
@article{Sunkara2022NoMS,title = {ストライド畳み込みやプーリングはもう不要: 低解像度画像と小さなオブジェクトのための新しい CNN ビルディング ブロック},author = {Raja Sunkara と Tie Luo},journal = {ArXiv},year = {2022 }、ボリューム = {abs/2208.03641}}
@inproceedings{Fifty2024RestructuringVQ,title = {回転トリックによるベクトル量子化の再構築},author = {Christopher Fifty、Ronald G. Junkins、Dennis Duan、Aniketh Iger、Jerry W. Liu、Ehsan Amid、Sebastian Thrun、Christopher R'e} 、年 = {2024}、URL = {https://api.semanticscholar.org/CorpusID:273229218}}