Скачать audio ai timeline - audio ai timeline скачать исходный код

audio ai timeline

AI Исходный код

1.0.0

Скачать

Хронология аудио AI

Здесь мы будем отслеживать новейшие модели искусственного интеллекта для генерации звука на основе сигналов, начиная с 2023 года!

2023 год

Дата	Выпуск [Образцы]	Бумага	Код	Обученная модель
14.11	Mustango: к управляемому преобразованию текста в музыку	arXiv	GitHub	Обнимающее лицо
13.11	Music ControlNet: несколько изменяющихся во времени элементов управления для создания музыки	arXiv	-	-
02.11	E3 TTS: простое сквозное преобразование текста в речь	arXiv	-	-
01.10	UniAudio: модель Audio Foundation для создания универсального звука	arXiv	GitHub	-
24.09	VoiceLDM: преобразование текста в речь в контексте окружающей среды	arXiv	GitHub	-
05.09	PromptTTS 2: описание и создание голосов с помощью текстовой подсказки	arXiv	-	-
14.08	SpeechX: языковая модель нейронного кодека как универсальный преобразователь речи	arXiv	-	-
10.08	AudioLDM 2: Обучение целостной генерации звука с помощью предварительной подготовки с самоконтролем	arXiv	GitHub	Обнимающее лицо
09.08	JEN-1: Универсальная генерация музыки с текстовым управлением и моделями всенаправленной диффузии	arXiv	-	-
03.08	MusicLDM: повышение новизны в создании текста в музыку с использованием стратегий синхронного микширования	arXiv	GitHub	-
14.07	Mega-TTS 2: преобразование текста в речь с нулевой записью и речевыми подсказками произвольной длины	arXiv	-	-
10.07	VampNet: генерация музыки с помощью моделирования акустических токенов в маске	arXiv	GitHub	-
22.06	AudioPaLM: большая языковая модель, которая может говорить и слушать	arXiv	-	-
19.06	Voicebox: генерация многоязычной универсальной речи с текстовым сопровождением в любом масштабе	PDF	GitHub	-
08.06	MusicGen: простое и управляемое создание музыки	arXiv	GitHub	Обнимающее лицо
06.06	Mega-TTS: преобразование текста в речь с нулевой скоростью в масштабе с внутренним индуктивным смещением	arXiv	-	-
01.06	Vocos: устранение разрыва между нейронными вокодерами во временной области и Фурье для высококачественного синтеза звука.	arXiv	GitHub	-
29.05	Make-An-Audio 2: временное преобразование текста в аудио	arXiv	-	-
25.05	MeLoDy: эффективное нейронное создание музыки	arXiv	-	-
18.05	CLAPSpeech: изучение просодии из текстового контекста с предварительной тренировкой контрастного языка и аудио	arXiv	-	-
18.05	SpeechGPT: расширение возможностей больших языковых моделей с помощью внутренних кросс-модальных разговорных способностей	arXiv	GitHub	-
16.05	SoundStorm: эффективная параллельная генерация звука	arXiv	GitHub (неофициальный)	-
03.05	Разнообразная и яркая звуковая генерация из текстовых описаний	arXiv	-	-
02.05	Долгосрочный ритмичный видеосаундтрек	arXiv	GitHub	-
24.04	ТАНГО: генерация текста в аудио с использованием настроенной инструкции LLM и модели скрытой диффузии.	PDF	GitHub	Обнимающее лицо
18.04	NaturalSpeech 2: модели скрытой диффузии — это естественные синтезаторы речи и пения с нулевым импульсом	arXiv	GitHub (неофициальный)	-
10.04	Bark: генеративная аудиомодель с текстовыми подсказками	-	GitHub	Обнимающее лицо
03.04	АУДИТ: редактирование аудио по инструкциям с использованием моделей скрытой диффузии	arXiv	-	-
08.03	VALL-E X: говорите на иностранных языках своим голосом: моделирование языка с помощью межъязыкового нейронного кодека	arXiv	-	-
27.02	Я слышу ваше истинное лицо: создание звука под руководством изображения	arXiv	GitHub	-
08.02	Noise2Music: создание музыки с учетом текста с помощью моделей диффузии	arXiv	-	-
04.02	Модели диффузии с несколькими источниками для одновременной генерации и разделения музыки	arXiv	GitHub	-
30.01	SingSong: создание музыкального сопровождения пения.	arXiv	-	-
30.01	AudioLDM: генерация текста в аудио с помощью моделей скрытой диффузии	arXiv	GitHub	Обнимающее лицо
30.01	Мусай: генерация текста в музыку со скрытой диффузией длинного контекста	arXiv	GitHub	-
29.01	Make-An-Audio: генерация текста в аудио с помощью моделей быстрого расширения диффузии	PDF	-	-
28.01	Noise2Музыка	-	-	-
27.01	RAVE2 [Сэмплы RAVE1]	arXiv	GitHub	-
26.01	MusicLM: создание музыки из текста	arXiv	GitHub (неофициальный)	-
18.01	Msanii: высококачественный синтез музыки при ограниченном бюджете	arXiv	GitHub	Обнимающее лицо
16.01	ArchiSound: генерация звука с помощью диффузии	arXiv	GitHub	-
05.01	VALL-E: языковые модели нейронных кодеков представляют собой синтезаторы речи с нулевым преобразованием текста	arXiv	GitHub (неофициальный) (демо)	-