tortoise tts下载 - tortoise tts源码下载

tortoise tts

其他源码

1.0.0

下载

龟

Tortoise 是一个文本转语音程序，其构建重点如下：

强大的多语音功能。
高度真实的韵律和语调。

此存储库包含在推理模式下运行 Tortoise TTS 所需的所有代码。

手稿：https://arxiv.org/abs/2305.07243

拥抱脸部空间

Hugging Face Spaces 上举办了现场演示。如果您想避免排队，请复制空间并添加 GPU。请注意，仅 CPU 空间不适用于此演示。

https://huggingface.co/spaces/Manmay/tortoise-tts

通过 pip 安装

pip install tortoise-tts

如果您想安装最新的开发版本，也可以直接从 git 存储库安装：

pip install git+https://github.com/neonbjb/tortoise-tts

名字里有什么？

我以莫哈韦沙漠动植物群命名我的与语音相关的存储库。乌龟有点开玩笑：这个模型慢得要命。它利用自回归解码器和扩散解码器；两者都以其低采样率而闻名。在 K80 上，预计每 2 分钟生成一个中等长度的句子。

好吧......不再那么慢了，现在我们可以在 4GB vram 上获得0.25-0.3 RTF ，并且通过流式传输，我们可以获得 < 500 毫秒的延迟！

演示

请参阅此页面以获取大量示例输出列表。

Tortoise + GPT-3 的一个很酷的应用程序（不隶属于此存储库）：https://twitter.com/lexman_ai。不幸的是，这个项目似乎不再活跃了。

使用指南

本地安装

如果你想在自己的计算机上使用它，你必须有 NVIDIA GPU。

提示

在 Windows 上，我强烈建议使用 Conda 安装方法。有人告诉我，如果您不这样做，您将花费大量时间来解决依赖性问题。

首先，安装miniconda：https://docs.conda.io/en/latest/miniconda.html

然后运行以下命令，使用 anaconda 提示符作为终端（或配置为使用 conda 的任何其他终端）

这将：

创建指定了最少依赖项的 conda 环境
激活环境
使用此处提供的命令安装 pytorch：https://pytorch.org/get-started/locally/
克隆龟-tts
将当前目录更改为 tortoise-tts
运行 tortoise python setup 安装脚本

conda create --name tortoise python=3.9 numba inflect
conda activate tortoise
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
conda install transformers=4.29.2
git clone https://github.com/neonbjb/tortoise-tts.git
cd tortoise-tts
python setup.py install

或者，可以将 pytorch 安装在基础环境中，以便其他 conda 环境也可以使用它。为此，只需在激活 tortoise 环境之前发送conda install pytorch...行即可。

笔记

当你想使用 tortoise-tts 时，你必须确保tortoise conda 环境已激活。

如果您使用的是 Windows，您可能还需要安装 pysoundfile： conda install -c conda-forge pysoundfile

码头工人

这是一种快速上手的简单方法，也是一个良好的起点，具体取决于您的用例。

git clone https://github.com/neonbjb/tortoise-tts.git
cd tortoise-tts

docker build . -t tts

docker run --gpus all 
    -e TORTOISE_MODELS_DIR=/models 
    -v /mnt/user/data/tortoise_tts/models:/models 
    -v /mnt/user/data/tortoise_tts/results:/results 
    -v /mnt/user/data/.cache/huggingface:/root/.cache/huggingface 
    -v /root:/work 
    -it tts

这为您提供了一个可以在环境中执行一些 tts 的交互式终端。现在您可以探索 tortoise 为 tts 公开的不同接口。

例如：

 cd app
conda activate tortoise
time python tortoise/do_tts.py 
    --output_path /results 
    --preset ultra_fast 
    --voice geralt 
    --text " Time flies like an arrow; fruit flies like a bananna. "

苹果硅

在配备 M1/M2 芯片的 macOS 13+ 上，您需要安装 PyTorch 的 nightly 版本，如官方页面所述，您可以执行以下操作：

pip3 install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

请务必在激活环境后执行此操作。如果您不使用 conda，命令将如下所示：

python3.10 -m venv .venv
source .venv/bin/activate
pip install numba inflect psutil
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu
pip install transformers
git clone https://github.com/neonbjb/tortoise-tts.git
cd tortoise-tts
pip install .

请注意，Apple Silicon 上的 DeepSpeed 已被禁用，因为它不起作用。标志--use_deepspeed被忽略。您可能需要在下面的命令前面添加PYTORCH_ENABLE_MPS_FALLBACK=1才能使其正常工作，因为 MPS 不支持 Pytorch 中的所有操作。

do_tts.py

该脚本允许您用一个或多个声音说出单个短语。

python tortoise/do_tts.py --text " I'm going to speak this " --voice random --preset fast

做套接字流

 python tortoise/socket_server.py

将在端口 5000 监听

更快的推理 read.py

该脚本提供了用于阅读大量文本的工具。

python tortoise/read_fast.py --textfile < your text to be read > --voice random

读.py

该脚本提供了用于阅读大量文本的工具。

python tortoise/read.py --textfile < your text to be read > --voice random

这会将文本文件分解成句子，然后一次一个地将它们转换为语音。它将在生成时输出一系列语音剪辑。生成所有剪辑后，它会将它们组合成一个文件并输出。

有时乌龟会搞砸输出。您可以通过使用 --regenerate 参数重新运行read.py来重新生成任何错误的剪辑。

应用程序编程接口

Tortoise 可以通过编程方式使用，如下所示：

 reference_clips = [ utils . audio . load_audio ( p , 22050 ) for p in clips_paths ]
tts = api . TextToSpeech ()
pcm_audio = tts . tts_with_preset ( "your text here" , voice_samples = reference_clips , preset = 'fast' )

要使用 Deepspeed：

 reference_clips = [ utils . audio . load_audio ( p , 22050 ) for p in clips_paths ]
tts = api . TextToSpeech ( use_deepspeed = True )
pcm_audio = tts . tts_with_preset ( "your text here" , voice_samples = reference_clips , preset = 'fast' )

使用 kv 缓存：

 reference_clips = [ utils . audio . load_audio ( p , 22050 ) for p in clips_paths ]
tts = api . TextToSpeech ( kv_cache = True )
pcm_audio = tts . tts_with_preset ( "your text here" , voice_samples = reference_clips , preset = 'fast' )

要在 float16 中运行模型：

 reference_clips = [ utils . audio . load_audio ( p , 22050 ) for p in clips_paths ]
tts = api . TextToSpeech ( half = True )
pcm_audio = tts . tts_with_preset ( "your text here" , voice_samples = reference_clips , preset = 'fast' )

为了更快的运行，请使用所有三个：

 reference_clips = [ utils . audio . load_audio ( p , 22050 ) for p in clips_paths ]
tts = api . TextToSpeech ( use_deepspeed = True , kv_cache = True , half = True )
pcm_audio = tts . tts_with_preset ( "your text here" , voice_samples = reference_clips , preset = 'fast' )

致谢

这个项目获得的赞誉超出了我的预期。不过，我站在巨人的肩膀上，我想感谢社区中一些令人惊叹的人，他们帮助实现了这一目标：

Hugging Face，他编写了 GPT 模型和 Tortoise 使用的生成 API，并托管了模型权重。
Ramesh 等人撰写了 DALLE 论文，这是 Tortoise 背后的灵感来源。
Nichol 和 Dhariwal 编写了驱动扩散模型的代码（修订版）。
Jang 等人开发并开源了 univnet，这是本存储库使用的声码器。
Kim 和 Jung 实施了 univnet pytorch 模型。
lucidrains 编写了很棒的开源 pytorch 模型，其中许多模型都在这里使用。
Patrick von Platen 的 wav2vec 设置指南对于构建我的数据集非常宝贵。

注意

Tortoise 完全由作者（James Betker）使用他们自己的硬件构建。他们的雇主没有参与 Tortoise 开发的任何方面。

执照

Tortoise TTS 根据 Apache 2.0 许可证获得许可。

如果您使用此存储库或其中的想法进行研究，请引用它！ bibtex 主菜可以在 GitHub 的右侧窗格中找到。

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-01-15
大小 53.46MB
来自于 Github

tortoise tts

龟

拥抱脸部空间

通过 pip 安装

名字里有什么？

演示

使用指南

本地安装

码头工人

苹果硅

do_tts.py

做套接字流

更快的推理 read.py

读.py

应用程序编程接口

致谢

注意

执照

GitHub sgrebnov/cordova plugin background download

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

F5 TTS ComfyUI

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

语音开发英文资料(TTS使用指南Delphi版)

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

Sunamu

MySchedule.py

waymo open dataset

termwind

wp functions