rvq vae gpt
0.0.4
Upaya saya menerapkan desain Soundstream pada tokenisasi teks yang dipelajari dan kemudian menerapkan transformator hierarki ke pembuatan teks.
Soundstream akan dimodifikasi untuk menggunakan semua perhatian lokal. Eksperimen akan membandingkan VQ, RVQ, dan juga VQ berkepala banyak
Diberitahu oleh teman peneliti bahwa ini kemungkinan besar akan gagal ?? tapi aku akan tetap mencobanya, yolo. Jika tidak berhasil, mungkin masih berguna untuk genomik. Kalau dipikir-pikir, kenapa setidaknya dia tidak bisa mempelajari bigram (untuk bahasa Inggris) dan kodon (untuk genomik)? Mengapa kita tidak memiliki pengkodean prediktif hierarkis? Kita harus melakukannya
Pembaruan: Beberapa eksperimen langsung
@misc { https://doi.org/10.48550/arxiv.2107.03312 ,
title = { SoundStream: An End-to-End Neural Audio Codec } ,
author = { Zeghidour, Neil and Luebs, Alejandro and Omran, Ahmed and Skoglund, Jan and Tagliasacchi, Marco } ,
publisher = { arXiv } ,
url = { https://arxiv.org/abs/2107.03312 } ,
year = { 2021 }
}
@unknown { unknown ,
author = { Lee, Doyup and Kim, Chiheon and Kim, Saehoon and Cho, Minsu and Han, Wook-Shin } ,
year = { 2022 } ,
month = { 03 } ,
title = { Autoregressive Image Generation using Residual Quantization }
}
@article { Sunkara2022NoMS ,
title = { No More Strided Convolutions or Pooling: A New CNN Building Block for Low-Resolution Images and Small Objects } ,
author = { Raja Sunkara and Tie Luo } ,
journal = { ArXiv } ,
year = { 2022 } ,
volume = { abs/2208.03641 }
}
@inproceedings { Fifty2024RestructuringVQ ,
title = { Restructuring Vector Quantization with the Rotation Trick } ,
author = { Christopher Fifty and Ronald G. Junkins and Dennis Duan and Aniketh Iger and Jerry W. Liu and Ehsan Amid and Sebastian Thrun and Christopher R'e } ,
year = { 2024 } ,
url = { https://api.semanticscholar.org/CorpusID:273229218 }
}