Mis intentos de aplicar el diseño de Soundstream en la tokenización aprendida de texto y luego aplicar un transformador jerárquico a la generación de texto.
El Soundstream se modificará para utilizar toda la atención local. Los experimentos compararán VQ, RVQ y también VQ de múltiples cabezas.
¿Un amigo investigador le dijo que esto probablemente fallará? pero lo intentaré de todos modos, yolo. En el caso de que no funcione, quizás todavía pueda ser útil para la genómica. Ahora que lo pienso, ¿por qué no debería poder aprender al menos bigramas (para inglés) y codones (para genómica)? ¿Por qué no tenemos codificación predictiva jerárquica? Deberíamos
Actualización: algunos experimentos en vivo
agregue una diferencia en el entrenamiento del codificador automático entre la entrada y la reconstrucción, para que uno pueda examinar los casos de falla fácilmente
@misc{https://doi.org/10.48550/arxiv.2107.03312, título = {SoundStream: An End-to-End Neural Audio Codec}, autor = {Zeghidour, Neil y Luebs, Alejandro y Omran, Ahmed y Skoglund, Jan y Tagliasacchi, Marco}, editor = {arXiv}, url = {https://arxiv.org/abs/2107.03312}, año = {2021}}
@unknown{unknown,author = {Lee, Doyup y Kim, Chiheon y Kim, Saehoon y Cho, Minsu y Han, Wook-Shin},año = {2022},mes = {03},title = {Generación de imágenes autorregresivas usando Cuantización residual}}
@article{Sunkara2022NoMS,title = {No más convoluciones o agrupaciones avanzadas: un nuevo componente básico de CNN para imágenes de baja resolución y objetos pequeños},autor = {Raja Sunkara y Tie Luo},journal = {ArXiv},año = {2022 }, volumen = {abs/2208.03641}}
@inproceedings{Fifty2024RestructuringVQ,title = {Reestructuración de la cuantización de vectores con el truco de la rotación},autor = {Christopher Fifty y Ronald G. Junkins y Dennis Duan y Aniketh Iger y Jerry W. Liu y Ehsan Amid y Sebastian Thrun y Christopher R'e} ,año = {2024},url = {https://api.semanticscholar.org/CorpusID:273229218}}