rvq vae gpt
0.0.4
محاولاتي لتطبيق تصميم Soundstream على الترميز المتعلم للنص ثم تطبيق محول هرمي لإنشاء النص.
سيتم تعديل Soundstream لاستخدام كل الاهتمام المحلي. ستقوم التجارب بمقارنة VQ وRVQ وأيضًا VQ متعدد الرؤوس
قيل لي من قبل صديق باحث أن هذا من المحتمل أن يفشل ؟؟ لكنني سأحاول ذلك على أية حال، يولو. وفي حالة عدم نجاحه، فربما يظل مفيدًا لعلم الجينوم. لنفكر في الأمر، لماذا لا يكون قادرًا على الأقل على تعلم الرموز الكبيرة (لللغة الإنجليزية) والكودونات (لعلم الجينوم)؟ لماذا لا يكون لدينا ترميز تنبؤي هرمي؟ ينبغي لنا
تحديث: بعض التجارب الحية
@misc { https://doi.org/10.48550/arxiv.2107.03312 ,
title = { SoundStream: An End-to-End Neural Audio Codec } ,
author = { Zeghidour, Neil and Luebs, Alejandro and Omran, Ahmed and Skoglund, Jan and Tagliasacchi, Marco } ,
publisher = { arXiv } ,
url = { https://arxiv.org/abs/2107.03312 } ,
year = { 2021 }
}
@unknown { unknown ,
author = { Lee, Doyup and Kim, Chiheon and Kim, Saehoon and Cho, Minsu and Han, Wook-Shin } ,
year = { 2022 } ,
month = { 03 } ,
title = { Autoregressive Image Generation using Residual Quantization }
}
@article { Sunkara2022NoMS ,
title = { No More Strided Convolutions or Pooling: A New CNN Building Block for Low-Resolution Images and Small Objects } ,
author = { Raja Sunkara and Tie Luo } ,
journal = { ArXiv } ,
year = { 2022 } ,
volume = { abs/2208.03641 }
}
@inproceedings { Fifty2024RestructuringVQ ,
title = { Restructuring Vector Quantization with the Rotation Trick } ,
author = { Christopher Fifty and Ronald G. Junkins and Dennis Duan and Aniketh Iger and Jerry W. Liu and Ehsan Amid and Sebastian Thrun and Christopher R'e } ,
year = { 2024 } ,
url = { https://api.semanticscholar.org/CorpusID:273229218 }
}