Upaya saya menerapkan desain Soundstream pada tokenisasi teks yang dipelajari dan kemudian menerapkan transformator hierarki ke pembuatan teks.
Soundstream akan dimodifikasi untuk menggunakan semua perhatian lokal. Eksperimen akan membandingkan VQ, RVQ, dan juga VQ berkepala banyak
Diberitahu oleh teman peneliti bahwa ini kemungkinan besar akan gagal ?? tapi aku akan tetap mencobanya, yolo. Jika tidak berhasil, mungkin masih berguna untuk genomik. Kalau dipikir-pikir, kenapa setidaknya dia tidak bisa mempelajari bigram (untuk bahasa Inggris) dan kodon (untuk genomik)? Mengapa kita tidak memiliki pengkodean prediktif hierarkis? Kita harus melakukannya
Pembaruan: Beberapa eksperimen langsung
tambahkan perbedaan dalam pelatihan autoencoder antara input dan yang direkonstruksi, sehingga kasus kegagalan dapat diperiksa dengan mudah
@misc{https://doi.org/10.48550/arxiv.2107.03312, title = {SoundStream: An End-to-End Neural Audio Codec}, author = {Zeghidour, Neil dan Luebs, Alejandro dan Omran, Ahmed dan Skoglund, Jan dan Tagliasacchi, Marco}, penerbit = {arXiv}, url = {https://arxiv.org/abs/2107.03312}, tahun = {2021}}
@unknown{unknown,author = {Lee, Doyup dan Kim, Chiheon dan Kim, Saehoon dan Cho, Minsu dan Han, Wook-Shin},tahun = {2022},bulan = {03},title = {Pembuatan Gambar Autoregresif menggunakan Kuantisasi Residu}}
@article{Sunkara2022NoMS,title = {Tidak Ada Lagi Konvolusi atau Penggabungan Berlangkah: Blok Bangunan CNN Baru untuk Gambar Resolusi Rendah dan Objek Kecil},author = {Raja Sunkara dan Tie Luo},journal = {ArXiv},year = {2022 },volume = {abs/2208.03641}}
@inproceedings{Fifty2024RestructuringVQ,title = {Restrukturisasi Kuantisasi Vektor dengan Trik Rotasi},author = {Christopher Fifty dan Ronald G. Junkins dan Dennis Duan dan Aniketh Iger dan Jerry W. Liu dan Ehsan Amid dan Sebastian Thrun dan Christopher R'e} ,tahun = {2024},url = {https://api.semanticscholar.org/CorpusID:273229218}}