Mes tentatives pour appliquer la conception Soundstream à la tokenisation apprise du texte, puis appliquer un transformateur hiérarchique à la génération de texte.
Le Soundstream sera modifié pour utiliser toute l'attention locale. Les expériences compareront le VQ, le RVQ et également le VQ multi-têtes
Un ami chercheur m'a dit que cela échouerait probablement ?? mais je vais quand même essayer, yolo. Dans le cas où cela ne fonctionnerait pas, cela pourrait peut-être encore être utile pour la génomique. À bien y penser, pourquoi ne devrait-il pas au moins apprendre les bigrammes (pour l'anglais) et les codons (pour la génomique) ? Pourquoi n’avons-nous pas de codage prédictif hiérarchique ? Nous devrions
Mise à jour : quelques expériences en direct
ajouter une différence dans la formation de l'auto-encodeur entre l'entrée et la reconstruction, afin que l'on puisse examiner facilement les cas d'échec
@misc{https://doi.org/10.48550/arxiv.2107.03312, title = {SoundStream : un codec audio neuronal de bout en bout}, auteur = {Zeghidour, Neil et Luebs, Alejandro et Omran, Ahmed et Skoglund, Jan et Tagliasacchi, Marco}, éditeur = {arXiv}, url = {https://arxiv.org/abs/2107.03312}, année = {2021}}
@unknown{unknown,author = {Lee, Doyup et Kim, Chiheon et Kim, Saehoon et Cho, Minsu et Han, Wook-Shin},année = {2022},mois = {03},titre = {Génération d'image autorégressive à l'aide Quantification résiduelle}}
@article{Sunkara2022NoMS,title = {Plus de convolutions ou de regroupements striés : un nouvel élément de base de CNN pour les images basse résolution et les petits objets},author = {Raja Sunkara et Tie Luo},journal = {ArXiv},year = {2022 },volume = {abs/2208.03641}}
@inproceedings{Fifty2024RestructuringVQ,title = {Restructuration de la quantification vectorielle avec l'astuce de rotation},author = {Christopher Fifty et Ronald G. Junkins et Dennis Duan et Aniketh Iger et Jerry W. Liu et Ehsan Amid et Sebastian Thrun et Christopher R'e} ,année = {2024},url = {https://api.semanticscholar.org/CorpusID:273229218}}