rvq vae gpt
0.0.4
محاولاتي لتطبيق تصميم Soundstream على الترميز المتعلم للنص ثم تطبيق محول هرمي لإنشاء النص.
سيتم تعديل Soundstream لاستخدام كل الاهتمام المحلي. ستقوم التجارب بمقارنة VQ وRVQ وأيضًا VQ متعدد الرؤوس
قيل لي من قبل صديق باحث أن هذا من المحتمل أن يفشل ؟؟ لكنني سأحاول ذلك على أية حال، يولو. وفي حالة عدم نجاحه، فربما يظل مفيدًا لعلم الجينوم. لنفكر في الأمر، لماذا لا يكون قادرًا على الأقل على تعلم الرموز الكبيرة (لللغة الإنجليزية) والكودونات (لعلم الجينوم)؟ لماذا لا يكون لدينا ترميز تنبؤي هرمي؟ ينبغي لنا
تحديث: بعض التجارب الحية
أضف فرقًا في تدريب جهاز التشفير التلقائي بين الإدخال وإعادة البناء، بحيث يمكن للمرء فحص حالات الفشل بسهولة
@misc{https://doi.org/10.48550/arxiv.2107.03312، العنوان = {SoundStream: برنامج ترميز الصوت العصبي من طرف إلى طرف}، المؤلف = {زغيدور، نيل ولوبس، أليخاندرو وعمران، أحمد وسكوغلوند، جان وتاغلياساشي، ماركو}، الناشر = {arXiv}، url = {https://arxiv.org/abs/2107.03312}، السنة = {2021}}
@unknown{unknown,author = {Lee, Doyup and Kim, Chiheon and Kim, Saehoon and Cho, Minsu and Han, Wook-Shin},السنة = {2022},الشهر = {03},العنوان = {إنشاء الصور الانحدارية باستخدام التكمية المتبقية}}
@article{Sunkara2022NoMS، العنوان = {لا مزيد من التلافيفات أو التجميع المعقد: لبنة بناء جديدة لشبكة CNN للصور منخفضة الدقة والكائنات الصغيرة}، المؤلف = {Raja Sunkara وTie Luo}، المجلة = {ArXiv}، السنة = {2022 },الحجم = {abs/2208.03641}}
@inproceedings{Fifty2024RestructuringVQ,title = {Restructuring Vector Quantization with the Rotation Trick},author = {Christopher Fifty and Ronald G. Junkins وDennis Duan وAniketh Iger وJerry W. Liu وEhsan Amid وSebastian Thrun وChristopher R'e} ,السنة = {2024},url = {https://api.semanticscholar.org/CorpusID:273229218}}