rvq vae gpt herunterladen - rvq vae gpt Quellcode herunterladen

rvq vae gpt

Anderer Quellcode

0.0.4

Herunterladen

RVQ-VAE-GPT – Restvektorquantisierung VAE – GPT (wip)

Meine Versuche, Soundstream-Design auf die erlernte Tokenisierung von Text anzuwenden und dann einen hierarchischen Transformator auf die Textgenerierung anzuwenden.

Der Soundstream wird geändert, um die gesamte lokale Aufmerksamkeit zu nutzen. In Experimenten werden VQ, RVQ und auch mehrköpfiger VQ verglichen

Wurde mir von einem befreundeten Forscher gesagt, dass dies wahrscheinlich scheitern wird? aber ich werde es trotzdem versuchen, yolo. Falls es nicht funktioniert, kann es vielleicht trotzdem für die Genomik nützlich sein. Wenn Sie darüber nachdenken, warum sollte es nicht zumindest in der Lage sein, Bigramme (für Englisch) und Codons (für Genomik) zu lernen? Warum haben wir keine hierarchische prädiktive Codierung? Wir sollten

Update: Einige Live-Experimente

Todo

Fügen Sie im Autoencoder-Training einen Unterschied zwischen Eingabe und Rekonstruktion hinzu, damit die Fehlerfälle einfacher untersucht werden können

Zitate

 @misc{https://doi.org/10.48550/arxiv.2107.03312, Titel = {SoundStream: Ein End-to-End Neural Audio Codec}, Autor = {Zeghidour, Neil und Luebs, Alejandro und Omran, Ahmed und Skoglund, Jan und Tagliasacchi, Marco}, Herausgeber = {arXiv}, URL = {https://arxiv.org/abs/2107.03312}, Jahr = {2021}}

 @unknown{unknown,author = {Lee, Doyup und Kim, Chiheon und Kim, Saehoon und Cho, Minsu und Han, Wook-Shin},year = {2022},month = {03},title = {Autoregressive Bilderzeugung mit Restquantisierung}}

 @article{Sunkara2022NoMS,title = {No More Strided Convolutions or Pooling: A New CNN Building Block for Low-Resolution Images and Small Objects},author = {Raja Sunkara and Tie Luo},journal = {ArXiv},year = {2022 },volume = {abs/2208.03641}}

 @inproceedings{Fifty2024RestructuringVQ,title = {Restrukturierung der Vektorquantisierung mit dem Rotationstrick},Autor = {Christopher Fifty und Ronald G. Junkins und Dennis Duan und Aniketh Iger und Jerry W. Liu und Ehsan Amid und Sebastian Thrun und Christopher R'e} ,Jahr = {2024},URL = {https://api.semanticsscholar.org/CorpusID:273229218}}

Expandieren

Zusätzliche Informationen