rvq vae gpt
0.0.4
학습된 텍스트 토큰화에 Soundstream 디자인을 적용한 다음 계층적 변환기를 텍스트 생성에 적용하려는 시도입니다.
Soundstream은 모든 지역적 관심을 사용하도록 수정됩니다. 실험에서는 VQ, RVQ 및 다중 헤드 VQ를 비교합니다.
연구원 친구가 이것이 실패할 가능성이 높다고 들었습니다 ?? 하지만 어쨌든 시도해 볼게요, 욜로. 작동하지 않는 경우에도 유전체학에 여전히 유용할 수 있습니다. 그러고 보니 최소한 바이그램(영어)과 코돈(유전체학)은 배울 수 있으면 안되는 이유는 무엇입니까? 왜 계층적 예측 코딩이 없나요? 우리는해야한다
업데이트: 일부 실시간 실험
입력과 재구성 사이의 자동 인코더 훈련에 차이점을 추가하면 실패 사례를 쉽게 조사할 수 있습니다.
@misc{https://doi.org/10.48550/arxiv.2107.03312, 제목 = {SoundStream: 엔드투엔드 신경 오디오 코덱}, 작성자 = {Zeghidour, Neil 및 Luebs, Alejandro 및 Omran, Ahmed 및 Skoglund, Jan 및 Tagliasacchi, Marco}, 출판사 = {arXiv}, url = {https://arxiv.org/abs/2107.03312}, 연도 = {2021}}
@unknown{unknown,author = {Lee, Doyup and Kim, Chiheon and Kim, Saehoon and Cho, Minsu and Han, Wook-Shin},year = {2022},month = {03},title = {Autoregressive Image Generation using using 잔여 양자화}}
@article{Sunkara2022NoMS,title = {더 이상 스트라이드 컨볼루션 또는 풀링 없음: 저해상도 이미지 및 소형 개체를 위한 새로운 CNN 빌딩 블록},저자 = {Raja Sunkara 및 Tie Luo}, 저널 = {ArXiv}, 연도 = {2022 },볼륨 = {abs/2208.03641}}
@inproceedings{Fifty2024RestructuringVQ,title = {회전 트릭을 사용한 벡터 양자화 재구성},저자 = {Christopher Fifty 및 Ronald G. Junkins 및 Dennis Duan 및 Aniketh Iger 및 Jerry W. Liu 및 Ehsan Amid 및 Sebastian Thrun 및 Christopher R'e} ,연도 = {2024},url = {https://api.semanticscholar.org/CorpusID:273229218}}