Отчет редактора Downcodes: Исследовательские группы из Шанхайского университета Цзяо Тонг, Кембриджского университета и Автомобильного научно-исследовательского института Geely недавно запустили новую систему преобразования текста в речь (TTS) под названием F5-TTS. В системе используется метод без авторегрессии в сочетании с согласованием потока и диффузионным преобразователем (DiT), который эффективно упрощает сложный процесс традиционной модели TTS и обеспечивает значительный прорыв как в качестве синтеза, так и в скорости вывода. По сравнению с традиционными моделями TTS, F5-TTS работает лучше с точки зрения скорости обработки и надежности, открывая новые возможности технологии синтеза речи.
Недавно исследовательская группа из Шанхайского университета Цзяо Тонг, Кембриджского университета и Автомобильного научно-исследовательского института Geely запустила новую систему преобразования текста в речь (TTS) под названием F5-TTS. Особенностью этой системы является то, что она использует метод без авторегрессии, который сочетает в себе согласование потока с диффузионным преобразователем (DiT), успешно упрощая сложные этапы традиционной модели TTS.
Как мы все знаем, традиционные модели TTS часто требуют сложного моделирования продолжительности, выравнивания фонем и специального кодирования текста, что увеличивает сложность процесса синтеза. В частности, предыдущие модели, такие как E2TTS, часто сталкиваются с такими проблемами, как медленная сходимость и неточное выравнивание текста и речи, что затрудняет их эффективное применение в реальных сценариях. Появление F5-TTS призвано решить именно эти задачи.
Принцип работы F5-TTS прост. Во-первых, входной текст обрабатывается с помощью архитектуры ConvNeXt, чтобы его было легче согласовать с речью. Затем дополненная последовательность символов передается в модель вместе с зашумленной версией входной речи.
Обучение системы основано на диффузионном преобразователе (DiT), который эффективно сопоставляет простое начальное распределение с распределением данных посредством сопоставления потоков. Кроме того, F5-TTS также инновационно представляет стратегию Sway Sampling во время вывода, которая может расставлять приоритеты на ранних этапах потока на этапе вывода, тем самым улучшая согласованность между сгенерированной речью и входным текстом.
По результатам исследований F5-TTS превосходит многие современные системы TTS как по качеству синтеза, так и по скорости вывода. В наборе данных LibriSpeech-PC модель достигла коэффициента ошибок в словах (WER) 2,42 и коэффициента реального времени (RTF) 0,15 во время вывода, что было значительно лучше, чем предыдущая диффузионная модель E2TTS, которая лучше работала при обработке. скорость и Есть недостатки в надежности.
В то же время стратегия Sway Sampling значительно повышает естественность и понятность генерируемой речи, позволяя модели добиться плавной и выразительной генерации без обучения.
F5-TTS повышает надежность выравнивания и качество синтеза, упрощая процесс и устраняя необходимость в прогнозировании длительности, выравнивании фонем и явном кодировании текста. Кроме того, исследователи также подчеркнули этические соображения и предложили создать системы водяных знаков и обнаружения, чтобы предотвратить злоупотребление моделью.
Вход в проект: https://github.com/SWivid/F5-TTS
Выделять:
F5-TTS — это новый тип авторегрессионной системы преобразования текста в речь, которая упрощает традиционную модель TTS.
Система использует архитектуру ConvNeXt и DiT для улучшения согласования текста и речи и значительного улучшения качества синтеза.
? Исследователи подчеркнули необходимость обратить внимание на этические вопросы и предложили ввести водяные знаки и механизмы обнаружения для предотвращения потенциальных злоупотреблений.
Появление системы F5-TTS принесло новые прорывы в технологии преобразования текста в речь, и ожидается, что ее эффективная работа и упрощенные процессы будут широко использоваться во многих областях. Однако этические вопросы также требуют внимания, и последующие исследования должны быть посвящены созданию надежного механизма регулирования, обеспечивающего ответственное развитие технологий.