Meine Versuche, Soundstream-Design auf die erlernte Tokenisierung von Text anzuwenden und dann einen hierarchischen Transformator auf die Textgenerierung anzuwenden.
Der Soundstream wird geändert, um die gesamte lokale Aufmerksamkeit zu nutzen. In Experimenten werden VQ, RVQ und auch mehrköpfiger VQ verglichen
Wurde mir von einem befreundeten Forscher gesagt, dass dies wahrscheinlich scheitern wird? aber ich werde es trotzdem versuchen, yolo. Falls es nicht funktioniert, kann es vielleicht trotzdem für die Genomik nützlich sein. Wenn Sie darüber nachdenken, warum sollte es nicht zumindest in der Lage sein, Bigramme (für Englisch) und Codons (für Genomik) zu lernen? Warum haben wir keine hierarchische prädiktive Codierung? Wir sollten
Update: Einige Live-Experimente
Fügen Sie im Autoencoder-Training einen Unterschied zwischen Eingabe und Rekonstruktion hinzu, damit die Fehlerfälle einfacher untersucht werden können
@misc{https://doi.org/10.48550/arxiv.2107.03312, Titel = {SoundStream: Ein End-to-End Neural Audio Codec}, Autor = {Zeghidour, Neil und Luebs, Alejandro und Omran, Ahmed und Skoglund, Jan und Tagliasacchi, Marco}, Herausgeber = {arXiv}, URL = {https://arxiv.org/abs/2107.03312}, Jahr = {2021}}
@unknown{unknown,author = {Lee, Doyup und Kim, Chiheon und Kim, Saehoon und Cho, Minsu und Han, Wook-Shin},year = {2022},month = {03},title = {Autoregressive Bilderzeugung mit Restquantisierung}}
@article{Sunkara2022NoMS,title = {No More Strided Convolutions or Pooling: A New CNN Building Block for Low-Resolution Images and Small Objects},author = {Raja Sunkara and Tie Luo},journal = {ArXiv},year = {2022 },volume = {abs/2208.03641}}
@inproceedings{Fifty2024RestructuringVQ,title = {Restrukturierung der Vektorquantisierung mit dem Rotationstrick},Autor = {Christopher Fifty und Ronald G. Junkins und Dennis Duan und Aniketh Iger und Jerry W. Liu und Ehsan Amid und Sebastian Thrun und Christopher R'e} ,Jahr = {2024},URL = {https://api.semanticsscholar.org/CorpusID:273229218}}