AudioGPT
1.0.0
Nous fournissons notre implémentation et nos modèles pré-entraînés en open source dans ce référentiel.
Veuillez vous référer à run.md
Nous répertorions ici les capacités d'AudioGPT à l'heure actuelle. D'autres modèles et tâches pris en charge seront bientôt disponibles. Pour des exemples rapides, reportez-vous à l'actif.
Actuellement, tous les modèles ne disposent pas d'un référentiel.
Tâche | Modèles de fondation pris en charge | Statut |
---|---|---|
Synthèse vocale | FastSpeech, SyntaSpeech, VITS | Oui (en cours) |
Transfert de style | GenerSpeech | Oui |
Reconnaissance vocale | murmure, conformiste | Oui |
Amélioration de la parole | ConvTasNet | Oui (en cours) |
Séparation de la parole | TF-GridNet | Oui (en cours) |
Traduction vocale | Multi-décodeur | En-cours |
Mono-à-Binaural | Déformation neuronale | Oui |
Tâche | Modèles de fondation pris en charge | Statut |
---|---|---|
Texter pour chanter | DiffSinger, VISinger | Oui (en cours) |
Tâche | Modèles de fondation pris en charge | Statut |
---|---|---|
Texte vers audio | Créer un audio | Oui |
Peinture audio | Créer un audio | Oui |
Image vers audio | Créer un audio | Oui |
Détection sonore | Transformateur audio | Oui |
Détection du son cible | TSDNet | Oui |
Extraction du son | LASSNet | Oui |
Tâche | Modèles de fondation pris en charge | Statut |
---|---|---|
Synthèse de la tête parlante | GèneFace | Oui (en cours) |
Nous apprécions l’open source des projets suivants :
ESPNet NATSpeech Visual ChatGPT étreignant le visage LangChain Diffusion stable