audio ai timeline 다운로드 - audio ai timeline 소스코드 다운로드

audio ai timeline

AI 소스 코드

1.0.0

다운로드

오디오 AI 타임라인

여기에서는 2023년부터 시작되는 파형 기반 오디오 생성을 위한 최신 AI 모델을 추적합니다!

2023년

날짜	출시 [샘플]	종이	암호	훈련된 모델
14.11	Mustango: 제어 가능한 텍스트-음악 생성을 향하여	arXiv	GitHub	포옹하는 얼굴
13.11	Music ControlNet: 음악 생성을 위한 다중 시변 컨트롤	arXiv	-	-
02.11	E3 TTS: 손쉬운 엔드 투 엔드 확산 기반 텍스트 음성 변환	arXiv	-	-
01.10	UniAudio: 유니버설 오디오 세대를 향한 오디오 기반 모델	arXiv	GitHub	-
24.09	VoiceLDM: 환경적 맥락을 갖춘 텍스트 음성 변환	arXiv	GitHub	-
05.09	PromptTTS 2: 텍스트 프롬프트로 음성 설명 및 생성	arXiv	-	-
14.08	SpeechX: 다목적 음성 변환기로서의 신경 코덱 언어 모델	arXiv	-	-
10.08	AudioLDM 2: 자기 감독 사전 훈련을 통한 전체적인 오디오 생성 학습	arXiv	GitHub	포옹하는 얼굴
09.08	JEN-1: 전방향 확산 모델을 사용한 텍스트 기반 유니버설 음악 생성	arXiv	-	-
03.08	MusicLDM: 비트 동기식 믹스업 전략을 사용하여 텍스트-음악 생성의 참신함 강화	arXiv	GitHub	-
14.07	Mega-TTS 2: 임의 길이의 음성 프롬프트를 사용하는 제로샷 텍스트 음성 변환	arXiv	-	-
10.07	VampNet: 마스크된 음향 토큰 모델링을 통한 음악 생성	arXiv	GitHub	-
22.06	AudioPaLM: 말하고 들을 수 있는 대규모 언어 모델	arXiv	-	-
19.06	Voicebox: 규모에 맞는 텍스트 기반 다국어 범용 음성 생성	PDF	GitHub	-
08.06	MusicGen: 간단하고 제어 가능한 음악 생성	arXiv	GitHub	허깅 페이스 Colab
06.06	Mega-TTS: 본질적인 유도 바이어스를 사용한 대규모의 제로샷 텍스트 음성 변환	arXiv	-	-
01.06	Vocos: 고품질 오디오 합성을 위해 시간 영역과 푸리에 기반 신경 보코더 간의 격차 해소	arXiv	GitHub	-
29.05	Make-An-Audio 2: 시간적으로 강화된 텍스트-오디오 생성	arXiv	-	-
25.05	MeLoDy: 효율적인 신경 음악 생성	arXiv	-	-
18.05	CLAPSpeech: 대조 언어-오디오 사전 훈련을 통해 텍스트 컨텍스트에서 운율 학습	arXiv	-	-
18.05	SpeechGPT: 본질적인 교차 모달 대화 능력으로 대규모 언어 모델 강화	arXiv	GitHub	-
16.05	SoundStorm: 효율적인 병렬 오디오 생성	arXiv	GitHub(비공식)	-
03.05	텍스트 설명을 통한 다양하고 생생한 사운드 생성	arXiv	-	-
02.05	장기 리듬 비디오 사운드트랙커	arXiv	GitHub	-
4.24	TANGO: 명령 조정 LLM 및 잠재 확산 모델을 사용한 텍스트-오디오 생성	PDF	GitHub	포옹하는 얼굴
18.04	NaturalSpeech 2: 잠재 확산 모델은 자연스럽고 제로샷 음성 및 노래 합성기임	arXiv	GitHub(비공식)	-
10.04	Bark: 텍스트 프롬프트 생성 오디오 모델	-	GitHub	허깅 페이스 Colab
03.04	감사: 잠재 확산 모델 지침에 따라 오디오 편집	arXiv	-	-
08.03	VALL-E X: 자신의 목소리로 외국어 말하기: 교차 언어 신경 코덱 언어 모델링	arXiv	-	-
27.02	나는 당신의 진정한 색깔을 듣습니다: 이미지 유도 오디오 생성	arXiv	GitHub	-
08.02	Noise2Music: 확산 모델을 사용한 텍스트 조건 음악 생성	arXiv	-	-
04.02	동시 음악 생성 및 분리를 위한 다중 소스 확산 모델	arXiv	GitHub	-
30.01	SingSong: 노래에서 음악 반주 생성	arXiv	-	-
30.01	AudioLDM: 잠재 확산 모델을 사용한 텍스트-오디오 생성	arXiv	GitHub	포옹하는 얼굴
30.01	Moûsai: 장기 맥락 잠재 확산을 이용한 텍스트-음악 생성	arXiv	GitHub	-
29.01	Make-An-Audio: 신속 강화 확산 모델을 사용한 텍스트-오디오 생성	PDF	-	-
28.01	Noise2음악	-	-	-
27.01	RAVE2 [샘플 RAVE1]	arXiv	GitHub	-
26.01	MusicLM: 텍스트에서 음악 생성	arXiv	GitHub(비공식)	-
18.01	Msanii: 적은 예산으로 고품질 음악 합성	arXiv	GitHub	허깅 페이스 Colab
16.01	ArchiSound: 확산을 통한 오디오 생성	arXiv	GitHub	-
05.01	VALL-E: 신경 코덱 언어 모델은 제로샷 텍스트 음성 합성기입니다.	arXiv	GitHub(비공식)(데모)	-