rvq vae gpt
0.0.4
ความพยายามของฉันในการใช้การออกแบบ Soundstream กับโทเค็นการเรียนรู้ของข้อความ จากนั้นใช้หม้อแปลงแบบลำดับชั้นในการสร้างข้อความ
Soundstream จะถูกแก้ไขเพื่อใช้ความสนใจในท้องถิ่นทั้งหมด การทดลองจะเปรียบเทียบ VQ, RVQ และ VQ แบบหลายหัวด้วย
เพื่อนนักวิจัยบอกเรื่องนี้น่าจะล้มเหลว ?? แต่ยังไงฉันก็จะพยายามนะ โยโล ในกรณีที่ไม่ได้ผล อาจยังมีประโยชน์สำหรับจีโนมิกส์อยู่ ลองคิดดูว่าทำไมอย่างน้อยมันถึงไม่สามารถเรียนรู้ bigrams (สำหรับภาษาอังกฤษ) และ codons (สำหรับจีโนมิกส์) ได้? เหตุใดเราจึงไม่มีการเข้ารหัสเชิงทำนายแบบลำดับชั้น เราควร
อัปเดต: การทดลองสดบางส่วน
เพิ่มความแตกต่างในการฝึกอบรมการเข้ารหัสอัตโนมัติระหว่างอินพุตและที่สร้างขึ้นใหม่ เพื่อให้สามารถตรวจสอบกรณีความล้มเหลวได้อย่างง่ายดาย
@misc{https://doi.org/10.48550/arxiv.2107.03312, title = {SoundStream: An End-to-End Neural Audio Codec}, ผู้แต่ง = {Zeghidour, Neil และ Luebs, Alejandro และ Omran, Ahmed และ Skoglund, แจน และ ทาเกลียซาคคิ, มาร์โก}, ผู้จัดพิมพ์ = {arXiv}, url = {https://arxiv.org/abs/2107.03312}, ปี = {2021}}
@unknown{unknown,author = {Lee, Doyup และ Kim, Chiheon และ Kim, Saehoon และ Cho, Minsu และ Han, Wook-Shin},ปี = {2022},เดือน = {03},title = {การสร้างภาพอัตโนมัติโดยใช้ ปริมาณคงเหลือ}}
@article{Sunkara2022NoMS,title = {No More Strided Convolutions or Pooling: A New CNN Building Block for Low-Resolution Images and Small Objects},ผู้เขียน = {Raja Sunkara and Tie Luo},journal = {ArXiv},year = {2022 },ปริมาตร = {เอบีเอส/2208.03641}}
@inproceedings{Fifty2024RestructuringVQ,title = {Restructuring Vector Quantization with the Rotation Trick},ผู้แต่ง = {Christopher Fifty และ Ronald G. Junkins และ Dennis Duan และ Aniketh Iger และ Jerry W. Liu และ Ehsan Amid และ Sebastian Thrun และ Christopher R'e} ,ปี = {2024},url = {https://api.semanticscholar.org/CorpusID:273229218}}