audio ai timeline
1.0.0
Здесь мы будем отслеживать новейшие модели искусственного интеллекта для генерации звука на основе сигналов, начиная с 2023 года!
Дата | Выпуск [Образцы] | Бумага | Код | Обученная модель |
---|---|---|---|---|
14.11 | Mustango: к управляемому преобразованию текста в музыку | arXiv | GitHub | Обнимающее лицо |
13.11 | Music ControlNet: несколько изменяющихся во времени элементов управления для создания музыки | arXiv | - | - |
02.11 | E3 TTS: простое сквозное преобразование текста в речь | arXiv | - | - |
01.10 | UniAudio: модель Audio Foundation для создания универсального звука | arXiv | GitHub | - |
24.09 | VoiceLDM: преобразование текста в речь в контексте окружающей среды | arXiv | GitHub | - |
05.09 | PromptTTS 2: описание и создание голосов с помощью текстовой подсказки | arXiv | - | - |
14.08 | SpeechX: языковая модель нейронного кодека как универсальный преобразователь речи | arXiv | - | - |
10.08 | AudioLDM 2: Обучение целостной генерации звука с помощью предварительной подготовки с самоконтролем | arXiv | GitHub | Обнимающее лицо |
09.08 | JEN-1: Универсальная генерация музыки с текстовым управлением и моделями всенаправленной диффузии | arXiv | - | - |
03.08 | MusicLDM: повышение новизны в создании текста в музыку с использованием стратегий синхронного микширования | arXiv | GitHub | - |
14.07 | Mega-TTS 2: преобразование текста в речь с нулевой записью и речевыми подсказками произвольной длины | arXiv | - | - |
10.07 | VampNet: генерация музыки с помощью моделирования акустических токенов в маске | arXiv | GitHub | - |
22.06 | AudioPaLM: большая языковая модель, которая может говорить и слушать | arXiv | - | - |
19.06 | Voicebox: генерация многоязычной универсальной речи с текстовым сопровождением в любом масштабе | GitHub | - | |
08.06 | MusicGen: простое и управляемое создание музыки | arXiv | GitHub | Обнимающее лицо |
06.06 | Mega-TTS: преобразование текста в речь с нулевой скоростью в масштабе с внутренним индуктивным смещением | arXiv | - | - |
01.06 | Vocos: устранение разрыва между нейронными вокодерами во временной области и Фурье для высококачественного синтеза звука. | arXiv | GitHub | - |
29.05 | Make-An-Audio 2: временное преобразование текста в аудио | arXiv | - | - |
25.05 | MeLoDy: эффективное нейронное создание музыки | arXiv | - | - |
18.05 | CLAPSpeech: изучение просодии из текстового контекста с предварительной тренировкой контрастного языка и аудио | arXiv | - | - |
18.05 | SpeechGPT: расширение возможностей больших языковых моделей с помощью внутренних кросс-модальных разговорных способностей | arXiv | GitHub | - |
16.05 | SoundStorm: эффективная параллельная генерация звука | arXiv | GitHub (неофициальный) | - |
03.05 | Разнообразная и яркая звуковая генерация из текстовых описаний | arXiv | - | - |
02.05 | Долгосрочный ритмичный видеосаундтрек | arXiv | GitHub | - |
24.04 | ТАНГО: генерация текста в аудио с использованием настроенной инструкции LLM и модели скрытой диффузии. | GitHub | Обнимающее лицо | |
18.04 | NaturalSpeech 2: модели скрытой диффузии — это естественные синтезаторы речи и пения с нулевым импульсом | arXiv | GitHub (неофициальный) | - |
10.04 | Bark: генеративная аудиомодель с текстовыми подсказками | - | GitHub | Обнимающее лицо |
03.04 | АУДИТ: редактирование аудио по инструкциям с использованием моделей скрытой диффузии | arXiv | - | - |
08.03 | VALL-E X: говорите на иностранных языках своим голосом: моделирование языка с помощью межъязыкового нейронного кодека | arXiv | - | - |
27.02 | Я слышу ваше истинное лицо: создание звука под руководством изображения | arXiv | GitHub | - |
08.02 | Noise2Music: создание музыки с учетом текста с помощью моделей диффузии | arXiv | - | - |
04.02 | Модели диффузии с несколькими источниками для одновременной генерации и разделения музыки | arXiv | GitHub | - |
30.01 | SingSong: создание музыкального сопровождения пения. | arXiv | - | - |
30.01 | AudioLDM: генерация текста в аудио с помощью моделей скрытой диффузии | arXiv | GitHub | Обнимающее лицо |
30.01 | Мусай: генерация текста в музыку со скрытой диффузией длинного контекста | arXiv | GitHub | - |
29.01 | Make-An-Audio: генерация текста в аудио с помощью моделей быстрого расширения диффузии | - | - | |
28.01 | Noise2Музыка | - | - | - |
27.01 | RAVE2 [Сэмплы RAVE1] | arXiv | GitHub | - |
26.01 | MusicLM: создание музыки из текста | arXiv | GitHub (неофициальный) | - |
18.01 | Msanii: высококачественный синтез музыки при ограниченном бюджете | arXiv | GitHub | Обнимающее лицо |
16.01 | ArchiSound: генерация звука с помощью диффузии | arXiv | GitHub | - |
05.01 | VALL-E: языковые модели нейронных кодеков представляют собой синтезаторы речи с нулевым преобразованием текста | arXiv | GitHub (неофициальный) (демо) | - |