rvq vae gpt
0.0.4
학습된 텍스트 토큰화에 Soundstream 디자인을 적용한 다음 텍스트 생성에 계층적 변환기를 적용하려는 시도입니다.
Soundstream은 모든 지역적 관심을 사용하도록 수정됩니다. 실험에서는 VQ, RVQ 및 다중 헤드 VQ를 비교합니다.
연구원 친구가 이것이 실패할 가능성이 높다고 들었습니다 ?? 하지만 어쨌든 시도해 볼게, 욜로. 작동하지 않는 경우에도 유전체학에 여전히 유용할 수 있습니다. 그러고 보니 최소한 바이그램(영어)과 코돈(유전체학)은 배울 수 있으면 안되는 이유는 무엇입니까? 왜 계층적 예측 코딩이 없나요? 우리는해야한다
업데이트: 일부 실시간 실험
@misc { https://doi.org/10.48550/arxiv.2107.03312 ,
title = { SoundStream: An End-to-End Neural Audio Codec } ,
author = { Zeghidour, Neil and Luebs, Alejandro and Omran, Ahmed and Skoglund, Jan and Tagliasacchi, Marco } ,
publisher = { arXiv } ,
url = { https://arxiv.org/abs/2107.03312 } ,
year = { 2021 }
}
@unknown { unknown ,
author = { Lee, Doyup and Kim, Chiheon and Kim, Saehoon and Cho, Minsu and Han, Wook-Shin } ,
year = { 2022 } ,
month = { 03 } ,
title = { Autoregressive Image Generation using Residual Quantization }
}
@article { Sunkara2022NoMS ,
title = { No More Strided Convolutions or Pooling: A New CNN Building Block for Low-Resolution Images and Small Objects } ,
author = { Raja Sunkara and Tie Luo } ,
journal = { ArXiv } ,
year = { 2022 } ,
volume = { abs/2208.03641 }
}
@inproceedings { Fifty2024RestructuringVQ ,
title = { Restructuring Vector Quantization with the Rotation Trick } ,
author = { Christopher Fifty and Ronald G. Junkins and Dennis Duan and Aniketh Iger and Jerry W. Liu and Ehsan Amid and Sebastian Thrun and Christopher R'e } ,
year = { 2024 } ,
url = { https://api.semanticscholar.org/CorpusID:273229218 }
}