data_driven_ai_voice_cloning
1.0.0
Этот репозиторий представляет собой реализацию основной части моей магистерской диссертации в области науки о данных и инженерии. Он разделен на две части:
- модели: ECAPA-TDNN, серия wavlm
- данные: VoxCeleb1, частный набор данных
- модель: FastSpeech2 (реализация Microsoft)
- данные: ЛибриТТС
Эти две части затем объединяются для создания модели преобразования текста в речь с несколькими динамиками, которая способна клонировать невидимые голоса, начиная примерно с 5 секунд звука, модели ZeroShotFastSpeech2.