Minhas tentativas de aplicar o design Soundstream na tokenização aprendida de texto e, em seguida, aplicar um transformador hierárquico à geração de texto.
O Soundstream será modificado para usar toda a atenção local. Os experimentos compararão VQ, RVQ e também VQ com múltiplas cabeças
Foi informado por um amigo pesquisador que isso provavelmente irá falhar ?? mas vou tentar de qualquer maneira, yolo. Caso não funcione, talvez ainda possa ser útil para a genômica. Pensando bem, por que não deveria ser capaz de aprender pelo menos bigramas (para inglês) e códons (para genômica)? Por que não temos codificação preditiva hierárquica? Nós deveríamos
Atualização: alguns experimentos ao vivo
adicione uma diferença no treinamento do autoencoder entre entrada e reconstruído, para que seja possível examinar facilmente os casos de falha
@misc{https://doi.org/10.48550/arxiv.2107.03312, título = {SoundStream: um codec de áudio neural de ponta a ponta}, autor = {Zeghidour, Neil e Luebs, Alejandro e Omran, Ahmed e Skoglund, Jan e Tagliasacchi, Marco}, editor = {arXiv}, url = {https://arxiv.org/abs/2107.03312}, ano = {2021}}
@unknown{unknown,author = {Lee, Doyup e Kim, Chiheon e Kim, Saehoon e Cho, Minsu e Han, Wook-Shin},ano = {2022},mês = {03},title = {Geração de imagem autoregressiva usando Quantização Residual}}
@article{Sunkara2022NoMS,title = {Chega de convoluções ou pooling: um novo bloco de construção da CNN para imagens de baixa resolução e pequenos objetos},author = {Raja Sunkara e Tie Luo},journal = {ArXiv},year = {2022 }, volume = {abs/2208.03641}}
@inproceedings{Fifty2024RestructuringVQ,title = {Reestruturando a quantização vetorial com o truque de rotação},autor = {Christopher Fifty e Ronald G. Junkins e Dennis Duan e Aniketh Iger e Jerry W. Liu e Ehsan Amid e Sebastian Thrun e Christopher R'e} ,ano = {2024},url = {https://api.semanticscholar.org/CorpusID:273229218}}