A list of demo websites for automatic music generation research
texte en musique/audio
- Conditionnement Multi-Aspect (diffusion ; maman24) : https://benadar293.github.io/multi-aspect-conditioning/
- Presto (diffusion ; novack24arxiv) : https://presto-music.github.io/web/
- MMGen (diffusion ; wei24arxiv) : https://awesome-mmgen.github.io/
- Seed-Music (diffusion+transformateur ; bai24arxiv) : https://team.doubao.com/fr/special/seed-music
- SongCreator (diffusion ; lei24arxiv) : https://songcreator.github.io/
- MSLDM (diffusion ; xu24arxiv) : https://xzwy.github.io/MSLDMDemo/
- MusicLDM multipiste (diffusion ; karchkhadze24arxiv) : https://mt-musicldm.github.io/
- FluxMusic (diffusion ; fei24arxiv) : https://github.com/feizc/FluxMusic
- contrôle-transfer-diffusion (diffusion ; demerlé24ismir) : https://nilsdem.github.io/control-transfer-diffusion/
- Adaptateur AP (diffusion ; tsai24arxiv) : https://rebrand.ly/AP-adapter
- MusiConGen (transformateur ; lan24arxiv) : https://musicongen.github.io/musicongen_demo/
- Audio stable ouvert (diffusion ; evans24arxiv) : https://stability-ai.github.io/stable-audio-open-demo/
- MEDIC (diffusion ; liu24arxiv) : https://medic-zero.github.io/
- MusicGenStyle (transformateur ; rouard24ismir) : https://musicgenstyle.github.io/
- MelodyFlow (transformateur+diffusion ; lelan24arxiv) : https://melodyflow.github.io/
- MelodyLM (transformateur+diffusion ; li24arxiv) : https://melodylm666.github.io/
- JASCO (flux ; tal24ismir) : https://pages.cs.huji.ac.il/adiyoss-lab/JASCO/
- MusicFlow (diffusion ; prajwal24icml) : N/A
- Diff-A-Riff (diffusion ; nistal24ismir) : https://sonycslparis.github.io/diffariff-companion/
- DITTO-2 (diffusion ; novack24ismir) : https://ditto-music.github.io/ditto2/
- SoundCTM (diffusion ; saito24arxiv) : N/A
- Instruct-MusicGen (transformateur ; zhang24arxiv) : https://foul-ice-5ea.notion.site/Instruct-MusicGen-Demo-Page-Under-construction-a1e7d8d474f74df18bda9539d96687ab
- QA-MDT (diffusion ; li24arxiv) : https://qa-mdt.github.io/
- Audio stable 2 (diffusion ; evans24ismir) : https://stability-ai.github.io/stable-audio-2-demo/
- Mélodiste (transformateur ; hong24arxiv) : https://text2songmelodist.github.io/Sample/
- SMITIN (transformateur ; koo24arxiv) : https://wide-wood-512.notion.site/SMITIN-Self-Monitored-Inference-Time-INtervention-for-Generative-Music-Transformers-Demo-Page-983723e6e9ac4f008298f3c427a23241
- Audio stable (diffusion ; evans24arxiv) : https://stability-ai.github.io/stable-audio-demo/
- MusicMagus (diffusion ; zhang24ijcai) : https://wry-neighbor-173.notion.site/MusicMagus-Zero-Shot-Text-to-Music-Editing-via-Diffusion-Models-8f55a82f34944eb9a4028ca56c546d9d
- Idem (diffusion ; novack24arxiv) : https://ditto-music.github.io/web/
- MAGNeT (transformateur ; ziv24arxiv) : https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT/
- Mustango (diffusion ; melechovsky24naacl) : https://github.com/AMAAI-Lab/mustango
- Music ControlNet (diffusion ; wu24taslp) : https://musiccontrolnet.github.io/web/
- InstrumentGen (transformateur ; nercessian23ml4audio) : https://instrumentgen.netlify.app/
- Coco-Mulla (transformateur ; lin23arxiv) : https://kikyo-16.github.io/coco-mulla/
- Compositeur JEN-1 (diffusion ; yao23arxiv) : https://www.jenmusic.ai/audio-demos
- UniAudio (transformateur ; yang23arxiv) : http://dongchaoyang.top/UniAudio_demo/
- MusicLDM (diffusion ; chen23arxiv) : https://musicldm.github.io/
- InstructME (diffusion ; han23arxiv) : https://musicedit.github.io/
- JEN-1 (diffusion ; li23arxiv) : https://www.futureverse.com/research/jen/demos/jen1
- MusicGen (Transformateur ; copet23arxiv) : https://ai.honu.io/papers/musicgen/
- MeLoDy (Transformateur+diffusion ; lam23arxiv) : https://efficient-melody.github.io/
- MusicLM (Transformateur ; agostinelli23arxiv) : https://google-research.github.io/seanet/musiclm/examples/
- Noise2Music (diffusion ; huang23arxiv) : https://noise2music.github.io/
- ERNIE-Musique (diffusion; zhu23arxiv) : N/A
- Riffusion (diffusion ;) : https://www.riffusion.com/
texte-audio
- MambaFoley (mamba; xie24arxiv) : n/a
- PicoAudio (diffusion ; xie24arxiv) : https://zeyuxie29.github.io/PicoAudio.github.io/
- AudioLCM (diffusion ; liu24arxiv) : https://audiolcm.github.io/
- UniAudio 1.5 (transformateur ; yang24arxiv) : https://github.com/yangdongchao/LLM-Codec
- Tango 2 (diffusion ; majumder24mm) : https://tango2-web.github.io/
- Bâton (diffusion ; liao24arxiv) : https://baton2024.github.io/
- T-FOLEY (diffusion ; chung24icassp) : https://yoonjinxd.github.io/Event-guided_FSS_Demo.github.io/
- Audiobox (diffusion ; vyas23arxiv) : https://audiobox.metademolab.com/
- Amphion (zhang23arxiv) : https://github.com/open-mmlab/Amphion
- VoiceLDM (diffusion ; lee23arxiv) : https://voiceldm.github.io/
- AudioLDM 2 (diffusion ; liu23arxiv) : https://audioldm.github.io/audioldm2/
- WavJourney (; liu23arxiv) : https://audio-agi.github.io/WavJourney_demopage/
- CLIPSynth (diffusion ; dong23cvprw) : https://salu133445.github.io/clipsynth/
- CLIPSonic (diffusion ; dong23waspaa) : https://salu133445.github.io/clipsonic/
- SoundStorm (Transformateur ; borsos23arxiv) : https://google-research.github.io/seanet/soundstorm/examples/
- AUDIT (diffusion ; wang23arxiv) : https://audit-demo.github.io/
- VALL-E (Transformateur ; wang23arxiv) : https://www.microsoft.com/en-us/research/project/vall-e/ (pour la parole)
- modèles de diffusion multi-sources (diffusion ; 23arxiv) : https://gladia-research-group.github.io/multi-source-diffusion-models/
- Make-An-Audio (diffusion ; huang23arxiv) : https://text-to-audio.github.io/ (pour les sons généraux)
- AudioLDM (diffusion ; liu23arxiv) : https://audioldm.github.io/ (pour les sons généraux)
- AudioGen (Transformer ; kreuk23iclr) : https://felixkreuk.github.io/audiogen/ (pour les sons généraux)
- AudioLM (Transformer ; borsos23taslp) : https://google-research.github.io/seanet/audiolm/examples/ (pour les sons généraux)
texte vers midi
- text2midi (Transformateur ; bhandari25aaai) : https://huggingface.co/spaces/amaai-lab/text2midi
- MuseCoco (Transformateur ; lu23arxiv) : https://ai-muzic.github.io/musecoco/
génération de musique dans le domaine audio
- VampNet (transformateur ; garcia23ismir) : https://hugo-does-things.notion.site/VampNet-Music-Generation-via-Masked-Acoustic-Token-Modeling-e37aabd0d5f1493aa42c5711d0764b33
- JukeBox rapide (jukebox+distillation de connaissances ; pezzat-morales23mdpi) : https://soundcloud.com/michel-pezzat-615988723
- DAG (diffusion ; pascual23icassp) : https://diffusionaudiosynthesis.github.io/
- musique! (GAN ; pasini22ismir) : https://huggingface.co/spaces/marcop/musika
- JukeNox (VQVAE+Transformer ; dhariwal20arxiv) : https://openai.com/blog/jukebox/
- UNAGAN (GAN ; liu20arxiv) : https://github.com/ciaua/unagan
- dadabots (sampleRNN; carr18mume) : http://dadabots.com/music.php
étant donné le chant, générer des accompagnements
- Llambada (transformateur ; trinh24arxiv) : https://songgen-ai.github.io/llambada-demo/
- FastSAG (diffusion ; chen24arxiv) : https://fastsag.github.io/
- SingSong (VQVAE+Transofmrer ; donahue23arxiv) : https://storage.googleapis.com/sing-song/index.html
étant donné l'audio sans batterie, générer des accompagnements de batterie
- JukeDrummer (VQVAE+Transofmrer ; wu22ismir) : https://legoodmanner.github.io/jukedrummer-demo/
synthèse de chant dans le domaine audio
- InstructSing (ddsp; zeng24slt) : https://wavelandspeech.github.io/instructsing/
- Freestyler (transformateur ; ning24arxiv) : https://nzqian.github.io/Freestyler/
- Prompt-Singer (transformateur ; wang24naacl) : https://prompt-singer.github.io/
- StyleSinger (diffusion ; zhang24aaai) : https://stylesinger.github.io/
- BiSinger (transformateur ; zhou23asru) : https://bisinger-svs.github.io/
- HiddenSinger (diffusion ; hwang23arxiv) : https://jisang93.github.io/hiddensinger-demo/
- Make-A-Voice (transformateur ; huang23arxiv) : https://make-a-voice.github.io/
- RMSSinger (diffusion ; he23aclf) : https://rmssinger.github.io/
- NaturalSpeech 2 (diffusion ; shen23arxiv) : https://speechresearch.github.io/naturalspeech2/
- NANSY++ (Transformateur ; choi23iclr) : https://bald-lifeboat-9af.notion.site/Demo-Page-For-NANSY-67d92406f62b4630906282117c7f0c39
- UniSyn (; lei23aaai) : https://leiyi420.github.io/UniSyn/
- VISinger 2 (zhang22arxiv) : https://zhangyongmao.github.io/VISinger2/
- xiaoicesing 2 (Transformer+GAN ; wang22arxiv) : https://wavelandspeech.github.io/xiaoice2/
- WeSinger 2 (Transformateur+GAN ; zhang22arxiv) : https://zzw922cn.github.io/wesinger2/
- U-Singer (Transformateur ; kim22arxiv) : https://u-singer.github.io/
- Chant-Tacotron (Transformateur ; wang22arxiv) : https://hairuo55.github.io/SingingTacotron/
- KaraSinger (GRU/Transformer ; liao22icassp) : https://jerrygood0703.github.io/KaraSinger/
- VISinger (flux ; zhang2) : https://zhangyongmao.github.io/VISinger/
- Chanteur MLP (blocs de mixage ; tae21arxiv) : https://github.com/neosapience/mlp-singer
- LiteSing (wavenet ; zhuang21icassp) : https://auzxb.github.io/LiteSing/
- DiffSinger (diffusion ; liu22aaai)[pas de modélisation de durée] : https://diffsinger.github.io/
- HiFiSinger (Transformateur ; chen20arxiv) : https://speechresearch.github.io/hifisinger/
- DeepSinger (Transformateur ; ren20kdd) : https://speechresearch.github.io/deepsinger/
- xiaoice-multi-singer : https://jiewu-demo.github.io/INTERSPEECH2020/
- xiaoicesing : https://xiaoicesing.github.io/
- octets : https://bytesings.github.io/
- mellotron : https://nv-adlr.github.io/Mellotron
- le modèle de Lee (lee19arxiv) : http://ksinging.mystrikingly.com/
- http://home.ustc.edu.cn/~yiyh/interspeech2019/
transfert de style de chant dans le domaine audio/conversion de voix chantée
- ROSVC (; takahashi22arxiv) : https://t-naoya.github.io/rosvc/
- DiffSVC (diffusion ; liu21asru) : https://liusongxiang.github.io/diffsvc/
- FastSVC (CNN ; liu21icme) : https://nobody996.github.io/FastSVC/
- SoftVC VITS (): https://github.com/svc-develop-team/so-vits-svc
- Assem-VC (; kim21nipsw) : https://mindslab-ai.github.io/assem-vc/singer/
- iZotope-SVC (conv-encoder/decoder ; nercessian20ismir) : https://sites.google.com/izotope.com/ismir2020-audio-demo
- VAW-GAN (GAN ; lu20arxiv) : https://kunzhou9646.github.io/singvaw-gan/
- polyak20interspeech (GAN; polyak20interspeech) : https://singing-conversion.github.io/
- SINGAN (GAN ; sisman19apsipa) : N/A
- [MSVC-GAN] (GAN) : https://hujinsen.github.io/
- https://mtg.github.io/singing-synthesis-demos/voice-cloning/
- https://enk100.github.io/Unsupervised_Singing_Voice_Conversion/
- Yong&Nam (DSP ; yong18icassp) : https://seyong92.github.io/singing-expression-transfer/
- cybegan (CNN+GAN ; wu18faim) : http://mirlab.org/users/haley.wu/cybegan/
conversion parole-chant du domaine audio
- AlignSTS (encoder/adaptor/aligner/diff-decoder ; li23facl) : https://alignsts.github.io/
- Speech2sing2 (GAN ; wu20interspeech) : https://ericwudayi.github.io/Speech2Singing-DEMO/
- Speech2sing (encodeur/décodeur ; parekh20icassp) : https://jayneelparekh.github.io/icassp20/
correction du chant dans le domaine audio
- tuner automatique profond (CGRU ; wagner19icassp) : http://homes.sice.indiana.edu/scwager/deepautotuner.html
transfert de style de domaine audio (général)
- WaveTransfer (diffusion ; baoueb24mlsp) : https://wavetransfer.github.io/
- MusicTI (diffusion ; li24aaai) : https://lsfhuihuiff.github.io/MusicTI/
- DiffTransfer (diffusion ; comanducci23ismir) : https://lucacoma.github.io/DiffTransfer/
- RAVE-Latent Diffusion (diffusion ;) : https://github.com/moiseshorta/RAVE-Latent-Diffusion
- RAVE (VAE;caillon21arxiv) : https://anonymous84654.github.io/RAVE_anonymous/; https://github.com/acids-ircam/RAVE
- VAE-GAN (VAE-GAN ; bonnici22ijcnn) : https://github.com/RussellSB/tt-vae-gan
- VQ-VAE (VQ-VAE ; cifka21icassp) : https://adasp.telecom-paris.fr/rc/demos_companion-pages/cifka-ss-vq-vae/
- MelGAN-VC (GAN ; pasini19arxiv) : https://www.youtube.com/watch?v=3BN577LK62Y&feature=youtu.be
- RaGAN (GAN ; lu19aaai) : https://github.com/ChienYuLu/Play-As-You-Like-Timbre-Enhanced-Multi-modal-Music-Style-Transfer
- TimbreTron (GAN ; huang19iclr) : https://www.cs.toronto.edu/~huang/TimbreTron/samples_page.html
- string2woodwind (DSP ; wagner17icassp) : http://homes.sice.indiana.edu/scwager/css.html
TTS
- NaturalSpeech 3 (diffusion ; ju24arxiv) : https://speechresearch.github.io/naturalspeech3/
- VITS (transformateur+flux+GAN ; kim21icml) : https://github.com/jaywalnut310/vits
conversion vocale / clonage vocal
- Applio() : https://github.com/IAHispano/Applio
vocodeur (général)
- MusicHiFi (GAN+diffusion ; zhu24arxiv) : https://musichifi.github.io/web/
- BigVGAN (GAN ; lee23iclr) : https://bigvgan-demo.github.io/
- HifiGAN (GAN; kong20neurips) : https://jik876.github.io/hifi-gan-demo/
- DiffWave (diffusion ; kong21iclr) : https://diffwave-demo.github.io/
- WaveGAN parallèle (GAN ; yamamoto20icassp) : https://r9y9.github.io/projects/pwg/
- MelGAN (GAN ; kumar19neurips) : https://melgan-neurips.github.io/
vocodeur (chant)
- GOLF (DDSP ; yu23ismir) : https://yoyololicon.github.io/golf-demo/
- DSPGAN (GAN ; song23icassp) : https://kunsung.github.io/DSPGAN/
- Sifi-GAN (GAN ; yoneyama23icassp) : https://chomeyama.github.io/SiFiGAN-Demo/
- SawSing (DDSP ; wu22ismir) : https://ddspvocoder.github.io/ismir-demo/
- Multi-Singer (wavenet ; huang21mm) : https://multi-singer.github.io/
- SingGAN (GAN ; chen21arxiv) : https://singgan.github.io/
générateur de jetons audio
- RVQGAN amélioré (VQ ; kumar23arxiv) : https://descript.notion.site/Descript-Audio-Codec-11389fce0ce2419891d6591a68f814d5
- Codec HiFi (VQ ; yang23arxiv) : https://github.com/yangdongchao/AcademiCodec
- EnCodec (VQ; défossez22arxiv) : https://github.com/facebookresearch/encodec
- SoundStream (VQ ; zeghidour21arxiv) : https://google-research.github.io/seanet/soundstream/examples/
super-résolution audio
- AudioSR (diffusion ; liu23arxiv) : https://audioldm.github.io/audiosr/
génération de boucle de domaine audio
- PJLoopGAN (GAN ; yeh22ismir) : https://arthurddd.github.io/PjLoopGAN/
- LoopGen (GAN ; hung21ismir) : https://loopgen.github.io/
partition donnée, générer de l'audio musical (performance) : Piano uniquement
- MIDI vers audio basé sur TTS (Transformer-TTS ; shi23icassp) : https://nii-yamagishilab.github.io/sample-midi-to-audio/
- Wave2Midi2Wave (transformateur+wavenet ; hawthorne19iclr) : https://magenta.tensorflow.org/maestro-wave2midi2wave
- BasisMixer (RNN+FFNN ; chacon16ismir-lbd) : https://www.youtube.com/watch?v=zdU8C6Su3TI
partition donnée, générer de l'audio musical (performance) : non limité au piano [alias MIDI-to-audio]
- Deep Performer (Transformateur ; dong22icassp) : https://salu133445.github.io/deepperformer/
- PerformanceNet (CNN+GAN ; wang19aaai) : https://github.com/bwang514/PerformanceNet
- Wavenet conditionné (Wavenet ; manzelli18ismir) : http://people.bu.edu/bkulis/projects/music/index.html
synthèse audio/timbre
- gen-inst (transformateur ; nercessian24ismir) : https://gen-inst.netlify.app/
- GANStrument (narita22arxiv) : https://ganstrument.github.io/ganstrument-demo/
- ASPIC (DDSP ; hayes21ismir) : https://benhayes.net/projects/nws/
- CRASH (diffusion ; rouard21ismir) : https://crash-diffusion.github.io/crash/
- DarkGAN (GAN ; nistal21ismir) : https://an-1673.github.io/DarkGAN.io/
- MP3net (GAN ; broek21arxiv) : https://korneelvdbroek.github.io/mp3net/
- Michelashvili (inspiré du dsp ; michelashvili20iclr) : https://github.com/mosheman5/timbre_painting
- GAAE (GAN+AAE ; haque20arxiv) : https://drive.google.com/drive/folders/1et_BuZ_XDMrdsYzZDprLvEpmmuZrJ7jk
- MANNe (): https://github.com/JTColonel/manne
- DDSP (inspiré du dsp ; lamtharn20iclr) : https://storage.googleapis.com/ddsp/index.html
- MelNet (auto-régressif ; vasquez19arxiv) : https://audio-samples.github.io/
- AdVoc (; neekhara19arxiv) : http://chrisdonahue.com/advoc_examples/
- GANSynth (CNN+GAN ; engel19iclr) : https://magenta.tensorflow.org/gansynth
- SynthNet (schimbinschi19ijcai) : https://www.dropbox.com/sh/hkp3o5xjyexp2x0/AADvrfXTbHBXs9W7GN6Yeorua?dl=0
- TiFGAN (CNN+GAN ; marafioti19arxiv) : https://tifgan.github.io/
- CHANTEZ (defossez18nips) : https://research.fb.com/wp-content/themes/fb-research/research/sing-paper/
- WaveGAN (CNN+GAN ; donahue19iclr) : https://github.com/chrisdonahue/wavegan
- Encodeur automatique WaveNet (WaveNet ; engel17arxiv) : https://magenta.tensorflow.org/nsynth
image en musique/audio
- Art2Mus (diffusion ; rinaldi24ai4va) : https://drive.google.com/drive/u/1/folders/1dHBxLWnyBqhVMJgUkTk0hKnFbGDVhw__
- MeLFusion (diffusion ; chowdhury24cvpr) : https://schowdhury671.github.io/melfusion_cvpr2024/
- Vis2Mus (encodeur/décodeur ; zhang22arxiv) : https://github.com/ldzhangyx/vis2mus
- ConchShell (encodeur/décodeur ; fan22arxiv) : n/a
vidéo vers musique/audio
- SONIQUE (diffusion ; zhang24arxiv) : https://github.com/zxxwxyyy/sonique
- Herrmann-1 (LLM+transformateur ; haseeb24icassp) : https://audiomatic-research.github.io/herrmann-1/
- Diff-BGM (diffusion ; li24cvpr) : https://github.com/sizhelee/Diff-BGM
- Frieren (diffusion ; wang24arxiv) : https://frieren-v2a.github.io/
- Video2Music (transformateur ; kang23arxiv) : https://github.com/AMAAI-Lab/Video2Music
- LORIS (diffusion ; yu23icml) : https://justinyuu.github.io/LORIS/
composition musicale multipiste interactive
- Jamming avec Yating (RNN; hsiao19ismir-lbd) : https://www.youtube.com/watch?v=9ZIJrr6lmHg
composition interactive pour piano
- Piano Génie (RNN; donahue18nips-creativity) : https://piano-genie.glitch.me/
- Duo IA (RNN ; roberts16nips-demo) : https://experiments.withgoogle.com/ai/ai-duet/view/
composition musicale monoaurale interactive
- [musicalspeech] (Transformer; d'Eon20nips-demo) : https://jasondeon.github.io/musicalSpeech/
composer une mélodie
- MelodyT5 (transformateur ; wu24ismir) : https://github.com/sanderwood/melodyt5
- MelodyGLM (transformateur ; wu23arxiv) : https://nextlab-zju.github.io/melodyglm/
- TunesFormer (transformateur ; wu23arxiv) : https://github.com/sander-wood/tunesformer
- MeloForm (transformateur ; lu22arxiv) : https://ai-muzic.github.io/meloform/
- parkR (markov; frieler22tismir) : https://github.com/klausfrieler/parkR
- xai-lsr (VAE ; bryankinns21nipsw) : https://xai-lsr-ui.vercel.app/
- Trans-LSTM (Transformateur+LSTM ; dai21ismir) : N/A...
- diffusion (diffusion+musicVAE ; mittal21ismir) : https://storage.googleapis.com/magentadata/papers/symbolic-music-diffusion/index.html
- MELONS (Transformateur ; zhou21arxiv) : https://yiathena.github.io/MELONS/
- Sketchnet (VAE+GRU ; chen20ismir) : https://github.com/RetroCirce/Music-SketchNet
- SSMGAN (VAE+LSTM+GAN ; jhamtani19ml4md) : https://drive.google.com/drive/folders/1TlOrbYAm7vGUvRrxa-uiH17bP-4N4e9z
- StructureNet (LSTM ; medeot18ismir) https://www.dropbox.com/sh/yxkxlnzi913ba50/AAA_mDbhdmaGJC9qj0zSlqCea?dl=0
- MusicVAE (LSTM+VAE ; roberts18icml) : https://magenta.tensorflow.org/music-vae
- MidiNet (CNN+GAN ; yang17ismir) : https://richardyang40148.github.io/TheBlog/midinet_arxiv_demo.html
- C-RNN-GAN (LSTM+GAN ; mogren16cml) : http://mogren.one/publications/2016/c-rnn-gan/
- folkRNN (LSTM) : https://folkrnn.org/
composer de la musique pour piano sur une seule piste
- MusicMamba (mamba ; chen24arxiv) : n/a
- EMO-Disentanger (transformateur ; huang24ismir) : https://emo-disentanger.github.io/
- MuseBarControl (transformateur ; shu24arxiv) : https://ganperf.github.io/musebarcontrol.github.io/musebarcontrol/
- WholeSong (diffusion ; 24iclr) : https://wholesonggen.github.io/
- MGM (transformateur ; 24tmm) : https://github.com/hu-music/MGM
- Polyffusion (diffusion ; min23ismir) : https://polyffusion.github.io/
- EmoGen (Transformateur ; kang23arxiv) : https://ai-muzic.github.io/emogen/
- Composer et embellir (Transformer ; wu22arxiv) : https://drive.google.com/drive/folders/1Y7HfExAz3PpPbFl0OnccxYDNF1KZUP-3
- Transformateur de thème (Transformer ; shih21arxiv) : https://atosystem.github.io/ThemeTransformer/
- EMOPIA (Transformateur ; hung21ismir) : https://annahung31.github.io/EMOPIA/
- dadagp (Transformateur ; sarmento21ismir) : https://drive.google.com/drive/folders/1USNH8olG9uy6vodslM3iXInBT725zult
- Transformateur CP (Transformateur ; hsiao21aaai) : https://ailabs.tw/human-interaction/compound-word-transformer-generate-pop-piano-music-of-full-song-length/
- PIANOTREE VAE (VAE+GRU ; wang20ismir) : https://github.com/ZZWaang/PianoTree-VAE
- Transformateur de guitare (Transformateur ; chen20ismir) : https://ss12f32v.github.io/Guitar-Transformer-Demo/
- Transformateur de musique pop (Transformateur ; huang20mm) : https://github.com/YatingMusic/remi
- Transformateur de musique conditionnel (Transformer ; choi19arxiv) : https://storage.googleapis.com/magentadata/papers/music-transformer-autoencoder/index.html ; et https://magenta.tensorflow.org/transformer-autoencoder
- PopRNN (RNN ; yeh19ismir-lbd) : https://soundcloud.com/yating_ai/sets/ismir-2019-submission/
- VGMIDI (LSTM; ferreira19ismir) : https://github.com/lucasnfe/music-sentneuron
- Amadeus (LSTM+RL ; kumar19arxiv) : https://goo.gl/ogVMSq
- VAE modularisée (GRU+VAE ; wang19icassp) : https://github.com/MiuLab/MVAE_Music
- BachProp (GRU ; colombo18arxiv) : https://sites.google.com/view/bachprop
- Transformateur de musique (Transformer ; huang19iclr) : https://magenta.tensorflow.org/music-transformer
Réarrangement (par exemple, pop2piano)
- PiCoGen2 (transformateur ; tan24ismir) : https://tanchihpin0517.github.io/PiCoGen/
- PiCoGen (transformateur ; tan24icmr) : https://tanchihpin0517.github.io/PiCoGen/
- Pop2Piano (transformateur ; choi23icassp) : https://sweetcocoa.github.io/pop2piano_samples/
- audio2midi (GRU ; wang21arxiv) : https://github.com/ZZWaang/audio2midi
- InverseMV (GRU ; lin21arxiv) : https://github.com/linchintung/VMT
composer de la musique polyphonique sur une seule piste en combinant celles existantes
- CollageNet (VAE ; wuerkaixi21ismir) : https://github.com/urkax/CollageNet
composer de la musique multipiste
- Cadenza (transformateur ; lenz24ismir) : https://lemo123.notion.site/Cadenza-A-Generative-Framework-for-Expressive-Ideas-Variations-7028ad6ac0ed41ac814b44928261cb68
- SymPAC (transformateur ; chen24ismir) : n/a
- MMT-BERT (transformateur ; zhu24ismir) : n/a
- Transformateur de musique imbriqué (transformateur ; ryu24ismir) : https://github.com/JudeJiwoo/nmt
- MMT-GI (transformateur ; xu23arxiv) : https://goatlazy.github.io/MUSICAI/
- MorpheuS : https://dorienherremans.com/morpheus
- Transformateur de musique d'anticipation (; Thickstun23arxiv) : https://crfm.stanford.edu/2023/06/16/anticipatory-music-transformer.html
- SCHmUBERT (diffusion ; plasser23ijcai) : https://github.com/plassma/symbolic-music-discrete-diffusion
- DiffuseRoll (diffusion ; wang23arxiv) : n/a
- Museformer (Transformateur ; yu22neurips) : https://ai-muzic.github.io/museformer/
- SymphonyNet (Transformateur ; liu22ismir) : https://symphonynet.github.io/
- CMT (Transformateur ; di21mm) : https://wzk1015.github.io/cmt/
- CONLON (GAN ; angioloni20ismir) : https://paolo-f.github.io/CONLON/
- MMM (Transformateur ; ens20arxiv) : https://jeffreyjohnens.github.io/MMM/
- MahlerNet (RNN+VAE ; lousseief19smc) : https://github.com/fast-reflexes/MahlerNet
- Mesure par mesure (RNN) : https://sites.google.com/view/pjgbjzom
- JazzRNN (RNN ; yeh19ismir-lbd) : https://soundcloud.com/yating_ai/sets/ismir-2019-submission/
- MIDI-Sandwich2 (RNN+VAE ; liang19arxiv) : https://github.com/LiangHsia/MIDI-S2
- LakhNES (Transformateur ; donahue19ismir) : https://chrisdonahue.com/LakhNES/
- MuseNet (Transformateur) : https://openai.com/blog/musenet/
- MIDI-VAE (GRU+VAE ; brunner18ismir) : https://www.youtube.com/channel/UCCkFzSvCae8ySmKCCWM5Mpg
- MusicVAE multipiste (LSTM+VAE ; simon18ismir) : https://magenta.tensorflow.org/multitrack
- MuseGAN (CNN+GAN ; dong18aaai) : https://salu133445.github.io/musegan/
composer des reprises multipistes (génération de reprises ; besoin de référence MIDI)
- FIGARO (Transformateur ; rütte22arxiv) : https://github.com/dvruette/figaro
accord donné, composer la mélodie
- MelodyDiffusion (diffusion ; li23mathematics) : https://www.mdpi.com/article/10.3390/math11081915/s1
- H-EC2-VAE (GRU+VAE ; wei21ismir) : N/A...
- MINGUS (Transformateur ; madaghiele21ismir) : https://github.com/vincenzomadaghiele/MINGUS
- BebopNet (LSTM) : https://shunithaviv.github.io/bebopnet/
- JazzGAN (GAN; trieu18mume) : https://www.cs.hmc.edu/~keller/jazz/improvisor/
- Bande XiaoIce (GRU ; zhu18kdd) : http://tv.cctv.com/2017/11/24/VIDEo7JWp0u0oWRmPbM4uCBt171124.shtml
mélodie donnée, composer un accord (harmonisation de la mélodie)
- ReaLchords (RL; wu24icml) : https://storage.googleapis.com/realchords/index.html
- EMO-Harmonizer (transformateur) : https://yuer867.github.io/emo_harmonizer/
- LHVAE (VAE+LSTM ; ji23arxiv) : n/a
- DeepChoir (transformateur ; wu23icassp) : https://github.com/sander-wood/deepchoir
- DAT-CVAE (transformateur-vae ; zhao22ismir) : https://zhaojw1998.github.io/DAT_CVAE
- SurpriseNet (VAE ; chen21ismir) : https://github.com/scmvp301135/SurpriseNet
- MTHarmonizer (RNN ; ouais21jnmr)
donné les paroles, composer la mélodie
- CSL-L2M (LLM ; wang25aaai) : https://lichaiustc.github.io/CSL-L2M/
- MuDiT/MuSiT (LLM ; wang24arxiv) : N/A
- SongComposer (LLM; ding24arxiv) : https://pjlab-songcomposer.github.io/
- ROC (transformateur ; lv22arxiv) : https://ai-muzic.github.io/roc/
- mélodie pop (transformateur ; zhang22ismir) : N/A
- ReLyMe (transformateur ; chen22mm) : https://ai-muzic.github.io/relyme/
- TeleMelody (transformateur ; ju21arxiv) : https://github.com/microsoft/muzic
- LSTM-GAN conditionnel (LSTM+GAN ; yu19arxiv) : https://github.com/yy1lab/Lyrics-Conditioned-Neural-Melody-Generation
- iComposer (LSTM ; lee19acl) : https://www.youtube.com/watch?v=Gstzqls2f4A
- Auteur-compositeur (GRU ; bao18arxiv) : N/A
composer du tambour MIDI
- Génération de batterie conditionnelle par Markis (BiLSTM/Transformer) : https://github.com/melkor169/CP_Drums_Generation
- Modèle de Nuttall (Transformer; nuttall21nime) : https://nime.pubpub.org/pub/8947fhly/release/1?readingCollection=71dd0131
- Modèle de Wei (VAE+GAN ; wei19ismir) : https://github.com/Sma1033/drum_generation_with_ssm
- DrumNet (GAE ; lattner19waspaa) : https://sites.google.com/view/drum-generation
- DrumVAE (GRU+VAE ; thio19milc) : http://vibertthio.com/drum-vae-client
composer une mélodie + des accords (deux pistes)
- Génération de feuilles de leads émotionnelles (sen2seq) : https://github.com/melkor169/LeadSheetGen_Valence
- EmoMusicTV (Transformateur ; ji23tmm) : https://github.com/Tayjsl97/EmoMusicTV
- Transformateur Jazz (Transformateur ; wu20ismir) : https://drive.google.com/drive/folders/1-09SoxumYPdYetsUWHIHSugK99E2tNYD
- Transformateur VAE (Transformateur+VAE ; jiang20icassp) : https://drive.google.com/drive/folders/1Su-8qrK__28mAesSCJdjo6QZf9zEgIx6
- RNN en deux étapes (RNN; deboom20arxiv) : https://users.ugent.be/~cdboom/music/
- LeadsheetGAN (CRNN+GAN ; liu18icmla) : https://liuhaumin.github.io/LeadsheetArrangement/results
- LeadsheetVAE (RNN+VAE ; liu18ismir-lbd) : https://liuhaumin.github.io/LeadsheetArrangement/results
étant donné les pistes MIDI, composez d'autres pistes MIDI
- GETMusic (diffusion discrète) : https://getmusicdemo.github.io/
mélodie ou partition donnée, composer l'arrangement
- AccoMontage3 (; zhao23arxiv) : https://zhaojw1998.github.io/AccoMontage-3
- GETMusic (diffusion discrète) : https://getmusicdemo.github.io/
- SongDriver (Transformateur-CRF ; wang22mm) :
- AccoMontage2 : https://billyyi.top/accomontage2/
- AccoMontage (basé sur un modèle ; zhao21ismir) : https://github.com/zhaojw1998/AccoMontage
- Transformateur CP (Transformateur ; hsiao21aaai) : https://ailabs.tw/human-interaction/compound-word-transformer-generate-pop-piano-music-of-full-song-length/
- PopMAG (transformateur ; ren20mm) : https://music-popmag.github.io/popmag/
- LeadsheetGAN : voir ci-dessus
- LeadsheetVAE : voir ci-dessus
- XiaoIce Band (le « modèle de co-arrangement multi-instruments ») : N/A
étant donné le mix (audio), composer la basse
- diffusion latente (diffusion ; pasini24arxiv) : https://sonycslparis.github.io/bass_accompaniment_demo/
- BassNet (GAE+CNN ; ren20mm) : https://sonycslparis.github.io/bassnet/
étant donné la mélodie principale, composez la mélodie + les accords
- local_conv_music_generation (CNN ; ouyang18arxiv) : https://somedaywilldo.github.io/local_conv_music_generation/
étant donné la mélodie principale, composez la mélodie + les accords + la basse
- BandNet (RNN ; zhou18arxiv) : https://soundcloud.com/yichao-zhou-555747812/sets/bandnet-sound-samples-1
étant donné une partition de piano, composer une orchestration
- LOP (RBM ; crestel17smc) : https://qsdfo.github.io/LOP/results.html
remplissage de piano
- Polyffusion (diffusion ; min23ismir) : https://polyffusion.github.io/
- remplissage sensible à la structure : https://tanchihpin0517.github.io/structure-aware_infilling
- VLI (Transformateur ; chang21ismir) : https://jackyhsiung.github.io/piano-infilling-demo/
- L'application Piano Inpainting (): https://ghadjeres.github.io/piano-inpainting-application/
remplissage mélodique
- CLSM (Transformer+LSTM ; akama21ismir) : https://contextual-latent-space-model.github.io/demo/
transfert de style de genre dans le domaine symbolique
- Pop2Jazz (RNN ; yeh19ismir-lbd) : https://soundcloud.com/yating_ai/sets/ismir-2019-submission/
- Groove2Groove (RNN ; cífka19ismir, cífka20taslp) : https://groove2groove.telecom-paris.fr/
- CycleGAN2 (CNN+GAN ; brunner19mml) : https://drive.google.com/drive/folders/1Jr_p6pnKvhA2YW9sp-ABChiFgV3gY1aT
- CycleGAN (CNN+GAN ; brunner18ictai) : https://github.com/sumuzhao/CycleGAN-Music-Style-Transfer
- FusionGAN (GAN ; chen17icdm) : http://people.cs.vt.edu/czq/publication/fusiongan/
transfert de style d'arrangement de domaine symbolique
- UnetED (CNN+Unet ; hung19ijcai) : https://biboamy.github.io/disentangle_demo/result/index.html
transfert de style émotion/rythme/hauteur dans le domaine symbolique
- MuseMorphose (Transformer+VAE ; wu21arxiv) : https://slseanwu.github.io/site-musemorphose/
- Kawai (VAE+GRU+adversarial ; kawai20ismir) : https://lisakawai.github.io/music_transformation/
- Wang (VAE+GRU ; wang20ismir) : https://github.com/ZZWaang/polyphonic-chord-texture-disentanglement
- Musique FaderNets (VAE ; tan20ismir) : https://music-fadernets.github.io/
- analogie-musique profonde (yang19ismir) : https://github.com/cdyrhjohn/Deep-Music-Analogy-Demos
génération de performances (étant donné le MIDI, générer du MIDI semblable à celui d'un humain) : piano uniquement
- ScorePerformer (transformateur ; borovik23ismir) : https://github.com/ilya16/scoreperformer
- CVRNN (CVRNN ; maezawa19ismir) : https://sites.google.com/view/cvrnn-performance-render
- GGNN (graphique NN + attention hiérarchique RNN ; jeong19icml)
- VirtuosoNet (LSTM+réseau d'attention hiérarchique ; jeong18nipsw) : https://www.youtube.com/playlist?list=PLkIVXCxCZ08rD1PXbrb0KNOSYVh5Pvg-c
- PerformanceRNN (RNN) : https://magenta.tensorflow.org/performance-rnn
étant donné le MIDI, génère du MIDI de type humain : batterie uniquement
- GrooVAE (seq2seq+VAE ; gillick19icml) : https://magenta.tensorflow.org/groovae
composer ABC MIDI par LLM
- ComposerX (LLM ; deng24arxiv) : https://lllindsey0615.github.io/ComposerX_demo/