audio ai timeline
1.0.0
여기에서는 2023년부터 시작되는 파형 기반 오디오 생성을 위한 최신 AI 모델을 추적합니다!
날짜 | 출시 [샘플] | 종이 | 암호 | 훈련된 모델 |
---|---|---|---|---|
14.11 | Mustango: 제어 가능한 텍스트-음악 생성을 향하여 | arXiv | GitHub | 포옹하는 얼굴 |
13.11 | Music ControlNet: 음악 생성을 위한 다중 시변 컨트롤 | arXiv | - | - |
02.11 | E3 TTS: 손쉬운 엔드 투 엔드 확산 기반 텍스트 음성 변환 | arXiv | - | - |
01.10 | UniAudio: 유니버설 오디오 세대를 향한 오디오 기반 모델 | arXiv | GitHub | - |
24.09 | VoiceLDM: 환경적 맥락을 갖춘 텍스트 음성 변환 | arXiv | GitHub | - |
05.09 | PromptTTS 2: 텍스트 프롬프트로 음성 설명 및 생성 | arXiv | - | - |
14.08 | SpeechX: 다목적 음성 변환기로서의 신경 코덱 언어 모델 | arXiv | - | - |
10.08 | AudioLDM 2: 자기 감독 사전 훈련을 통한 전체적인 오디오 생성 학습 | arXiv | GitHub | 포옹하는 얼굴 |
09.08 | JEN-1: 전방향 확산 모델을 사용한 텍스트 기반 유니버설 음악 생성 | arXiv | - | - |
03.08 | MusicLDM: 비트 동기식 믹스업 전략을 사용하여 텍스트-음악 생성의 참신함 강화 | arXiv | GitHub | - |
14.07 | Mega-TTS 2: 임의 길이의 음성 프롬프트를 사용하는 제로샷 텍스트 음성 변환 | arXiv | - | - |
10.07 | VampNet: 마스크된 음향 토큰 모델링을 통한 음악 생성 | arXiv | GitHub | - |
22.06 | AudioPaLM: 말하고 들을 수 있는 대규모 언어 모델 | arXiv | - | - |
19.06 | Voicebox: 규모에 맞는 텍스트 기반 다국어 범용 음성 생성 | GitHub | - | |
08.06 | MusicGen: 간단하고 제어 가능한 음악 생성 | arXiv | GitHub | 허깅 페이스 Colab |
06.06 | Mega-TTS: 본질적인 유도 바이어스를 사용한 대규모의 제로샷 텍스트 음성 변환 | arXiv | - | - |
01.06 | Vocos: 고품질 오디오 합성을 위해 시간 영역과 푸리에 기반 신경 보코더 간의 격차 해소 | arXiv | GitHub | - |
29.05 | Make-An-Audio 2: 시간적으로 강화된 텍스트-오디오 생성 | arXiv | - | - |
25.05 | MeLoDy: 효율적인 신경 음악 생성 | arXiv | - | - |
18.05 | CLAPSpeech: 대조 언어-오디오 사전 훈련을 통해 텍스트 컨텍스트에서 운율 학습 | arXiv | - | - |
18.05 | SpeechGPT: 본질적인 교차 모달 대화 능력으로 대규모 언어 모델 강화 | arXiv | GitHub | - |
16.05 | SoundStorm: 효율적인 병렬 오디오 생성 | arXiv | GitHub(비공식) | - |
03.05 | 텍스트 설명을 통한 다양하고 생생한 사운드 생성 | arXiv | - | - |
02.05 | 장기 리듬 비디오 사운드트랙커 | arXiv | GitHub | - |
4.24 | TANGO: 명령 조정 LLM 및 잠재 확산 모델을 사용한 텍스트-오디오 생성 | GitHub | 포옹하는 얼굴 | |
18.04 | NaturalSpeech 2: 잠재 확산 모델은 자연스럽고 제로샷 음성 및 노래 합성기임 | arXiv | GitHub(비공식) | - |
10.04 | Bark: 텍스트 프롬프트 생성 오디오 모델 | - | GitHub | 허깅 페이스 Colab |
03.04 | 감사: 잠재 확산 모델 지침에 따라 오디오 편집 | arXiv | - | - |
08.03 | VALL-E X: 자신의 목소리로 외국어 말하기: 교차 언어 신경 코덱 언어 모델링 | arXiv | - | - |
27.02 | 나는 당신의 진정한 색깔을 듣습니다: 이미지 유도 오디오 생성 | arXiv | GitHub | - |
08.02 | Noise2Music: 확산 모델을 사용한 텍스트 조건 음악 생성 | arXiv | - | - |
04.02 | 동시 음악 생성 및 분리를 위한 다중 소스 확산 모델 | arXiv | GitHub | - |
30.01 | SingSong: 노래에서 음악 반주 생성 | arXiv | - | - |
30.01 | AudioLDM: 잠재 확산 모델을 사용한 텍스트-오디오 생성 | arXiv | GitHub | 포옹하는 얼굴 |
30.01 | Moûsai: 장기 맥락 잠재 확산을 이용한 텍스트-음악 생성 | arXiv | GitHub | - |
29.01 | Make-An-Audio: 신속 강화 확산 모델을 사용한 텍스트-오디오 생성 | - | - | |
28.01 | Noise2음악 | - | - | - |
27.01 | RAVE2 [샘플 RAVE1] | arXiv | GitHub | - |
26.01 | MusicLM: 텍스트에서 음악 생성 | arXiv | GitHub(비공식) | - |
18.01 | Msanii: 적은 예산으로 고품질 음악 합성 | arXiv | GitHub | 허깅 페이스 Colab |
16.01 | ArchiSound: 확산을 통한 오디오 생성 | arXiv | GitHub | - |
05.01 | VALL-E: 신경 코덱 언어 모델은 제로샷 텍스트 음성 합성기입니다. | arXiv | GitHub(비공식)(데모) | - |