Image to Speech GenAI Tool Using LLM下载 - Image to Speech GenAI Tool Using LLM源代码下载

下载

️使用LLM的图像到语音GenAI工具♨️

AI 工具，通过提示 GenAI LLM 模型、Hugging Face AI 模型以及 OpenAI 和 LangChain，根据上传图像的上下文生成音频短篇故事。分别部署在Streamlit和Hugging Space云上。

在 Streamlit 上启动应用程序

在 HuggingFace 空间上启动应用程序

演示1：耦合测试图像输出

您可以在相应的img-audio文件夹中收听此测试演示图像的相应音频文件

系统设计

一款使用 Hugging Face AI 模型从图像生成文本的应用程序，然后从文本生成音频。

执行分为3部分：

图像到文本：图像到文本转换器模型 (Salesforce/blip-image-captioning-base) 用于基于 AI 对图像上下文的理解生成文本场景
文本转故事：提示OpenAI LLM模型根据生成的场景创建一个短篇故事（50字：可根据需要调整）。 GPT-3.5-涡轮
故事到语音：使用文本到语音转换器模型（espnet/kan-bayashi_ljspeech_vits）将生成的短篇故事转换为语音叙述的音频文件
使用streamlit构建用户界面以实现上传图像和播放音频文件

演示3：家庭测试图像输出您可以在相应的img-audio文件夹中收听此测试图像的相应音频文件

在使用该应用程序之前，用户应该拥有 Hugging Face 和 Open AI 的个人代币
用户应设置 venv 环境并安装 ipykernel 库以在本地系统 ide 上运行应用程序。
用户应将个人令牌保存在包内的“.env”文件中，作为对象名称下的字符串对象：HUGGINGFACE_TOKEN 和 OPENAI_TOKEN
然后，用户可以使用以下命令运行应用程序：streamlit run app.py
一旦应用程序在streamlit上运行，用户就可以上传目标图像
执行将自动开始，可能需要几分钟才能完成
完成后，应用程序将显示：
- 由图像到文本转换器 HuggingFace 模型生成的场景文本
- 提示 OpenAI LLM 生成的短篇故事
- 文本转语音转换器模型生成的讲述短篇故事的音频文件
在streamlit云和拥抱空间上部署Gen AI应用程序

演示2：野餐假期测试图像输出