Мои попытки применить дизайн Soundstream к изученной токенизации текста, а затем применить иерархический преобразователь к генерации текста.
Звуковой поток будет изменен, чтобы привлечь все местное внимание. Эксперименты будут сравнивать VQ, RVQ, а также многоголовый VQ.
Друг-исследователь сказал, что это, скорее всего, потерпит неудачу ?? но я все равно попробую, йоло. Если это не сработает, возможно, это еще пригодится для геномики. Если подумать, почему бы ему не научиться хотя бы биграммам (для английского языка) и кодонам (для геномики)? Почему у нас нет иерархического прогнозирующего кодирования? Мы должны
Обновление: некоторые живые эксперименты
добавить разницу в обучении автоэнкодера между входными и восстановленными данными, чтобы можно было легко исследовать случаи сбоя
@misc{https://doi.org/10.48550/arxiv.2107.03312, title = {SoundStream: сквозной нейронный аудиокодек}, автор = {Зегидур, Нил и Любс, Алехандро и Омран, Ахмед и Скоглунд, Ян и Тальясакки, Марко}, издатель = {arXiv}, url = {https://arxiv.org/abs/2107.03312}, год = {2021}}
@unknown{unknown,author = {Ли, Доюп и Ким, Чихон и Ким, Сэхун и Чо, Минсу и Хан, Ук-Шин},year = {2022},month = {03},title = {Генерация авторегрессионного изображения с использованием Остаточное квантование}}
@article{Sunkara2022NoMS,title = {Больше никаких ступенчатых сверток или объединений: новый строительный блок CNN для изображений с низким разрешением и небольших объектов},author = {Раджа Сункара и Ти Луо},journal = {ArXiv},year = {2022 },объем = {abs/2208.03641}}
@inproceedings{Fifty2024RestructuringVQ,title = {Реструктуризация векторного квантования с помощью трюка вращения},author = {Кристофер Фифти и Рональд Г. Джанкинс, Деннис Дуан, Аникет Айгер, Джерри В. Лью, Эхсан Амид, Себастьян Трун и Кристофер Р'е} ,year = {2024},url = {https://api.semanticscholar.org/CorpusID:273229218}}