Meine Versuche, Soundstream-Design auf die erlernte Tokenisierung von Text anzuwenden und dann einen hierarchischen Transformator auf die Textgenerierung anzuwenden.
Der Soundstream wird geändert, um die gesamte lokale Aufmerksamkeit zu nutzen. In Experimenten werden VQ, RVQ und auch mehrköpfiger VQ verglichen
Wurde mir von einem befreundeten Forscher gesagt, dass dies wahrscheinlich scheitern wird? aber ich werde es trotzdem versuchen, yolo. Falls es nicht funktioniert, kann es vielleicht trotzdem für die Genomik nützlich sein. Wenn Sie darüber nachdenken, warum sollte es nicht zumindest in der Lage sein, Bigramme (für Englisch) und Codons (für Genomik) zu lernen? Warum haben wir keine hierarchische prädiktive Codierung? Wir sollten
Update: Einige Live-Experimente
@misc { https://doi.org/10.48550/arxiv.2107.03312 ,
title = { SoundStream: An End-to-End Neural Audio Codec } ,
author = { Zeghidour, Neil and Luebs, Alejandro and Omran, Ahmed and Skoglund, Jan and Tagliasacchi, Marco } ,
publisher = { arXiv } ,
url = { https://arxiv.org/abs/2107.03312 } ,
year = { 2021 }
}
@unknown { unknown ,
author = { Lee, Doyup and Kim, Chiheon and Kim, Saehoon and Cho, Minsu and Han, Wook-Shin } ,
year = { 2022 } ,
month = { 03 } ,
title = { Autoregressive Image Generation using Residual Quantization }
}
@article { Sunkara2022NoMS ,
title = { No More Strided Convolutions or Pooling: A New CNN Building Block for Low-Resolution Images and Small Objects } ,
author = { Raja Sunkara and Tie Luo } ,
journal = { ArXiv } ,
year = { 2022 } ,
volume = { abs/2208.03641 }
}
@inproceedings { Fifty2024RestructuringVQ ,
title = { Restructuring Vector Quantization with the Rotation Trick } ,
author = { Christopher Fifty and Ronald G. Junkins and Dennis Duan and Aniketh Iger and Jerry W. Liu and Ehsan Amid and Sebastian Thrun and Christopher R'e } ,
year = { 2024 } ,
url = { https://api.semanticscholar.org/CorpusID:273229218 }
}