ByteDance a lancé un nouvel outil de création musicale, Seed-Music, qui ressemble à un magicien de la musique capable de générer de la musique de haute qualité basée sur des descriptions textuelles, des références audio, des partitions musicales et même des invites vocales. Seed-Music combine des modèles de langage autorégressifs et des modèles de diffusion pour donner aux utilisateurs un contrôle sans précédent sur la création musicale. Qu'il s'agisse de paroles et de musique, d'adaptation mélodique ou de voix-chant, Seed-Music peut facilement le gérer. L'éditeur de Downcodes vous fera découvrir cet étonnant modèle de génération musicale.
Récemment, ByteDance a publié un nouvel outil de création musicale appelé Seed-Music. Ce modèle de génération de musique magique vous permet de générer facilement de la musique via une variété de méthodes de saisie (telles que des descriptions textuelles, des références audio, des partitions musicales et même des invites vocales).
Seed-Music combine des modèles de langage autorégressifs et des modèles de diffusion pour non seulement générer des œuvres musicales de haute qualité, mais vous permet également de contrôler avec précision les détails de la musique. Que vous souhaitiez que les paroles accompagnent la musique ou que vous souhaitiez adapter la mélodie, il n'y a aucun problème ici. Vous pouvez même télécharger un court clip vocal et le système le convertira automatiquement en une chanson complète, ce qui est pratique et efficace.
Le puissant Seed-Music prend non seulement en charge la génération de musique vocale et instrumentale, mais comprend également une série de fonctions telles que la synthèse de la voix chantée, la conversion de la voix chantée et l'édition musicale, qui peuvent répondre aux besoins des différents utilisateurs. Vous pouvez générer des pops via de simples descriptions textuelles, et vous pouvez également ajuster le style de musique via des invites audio, ce qui est vraiment rafraîchissant.
Ce qui est plus intéressant, c'est que l'architecture de Seed-Music est divisée en trois modules : module d'apprentissage de représentation, module de génération et module de rendu, qui fonctionnent ensemble comme un groupe pour générer de la musique de haute qualité à partir d'entrées multimodales.
Le module d'apprentissage des représentations compresse le signal audio original en trois représentations intermédiaires, adaptées à différentes tâches de génération et d'édition musicales. Le module de génération convertit les entrées de l'utilisateur en représentation musicale via des modèles autorégressifs et des modèles de diffusion. Le module de rendu final est chargé de transformer ces représentations intermédiaires en un son de haute qualité dont vos oreilles peuvent profiter.
Afin de garantir la qualité de la musique, Seed-Music utilise diverses technologies : le modèle de langage autorégressif génère progressivement des symboles audio, le modèle de diffusion rend la musique plus claire grâce au débruitage, et le vocodeur traduit ces « codes » musicaux en haute fidélité lisible. son joué.
Le processus de formation de Seed-Music est également très intéressant, divisé en trois étapes : pré-formation, mise au point et post-formation. Grâce à des données musicales à grande échelle, le modèle acquiert des capacités de base, puis améliore les performances de tâches spécifiques grâce à un réglage fin, et enfin optimise en permanence les résultats générés grâce à l'apprentissage par renforcement.
Adresse du projet : https://team.doubao.com/en/special/seed-music
L'émergence de Seed-Music a sans aucun doute apporté de nouvelles possibilités à la création musicale. Son fonctionnement pratique et ses fonctions puissantes abaisseront considérablement le seuil de la création musicale, permettant à davantage de personnes de découvrir la joie de la création musicale. Nous attendons avec impatience que Seed-Music apporte d'autres surprises à l'avenir !