Image to Speech GenAI Tool Using LLM Image to Speech GenAI Tool Using LLM原始碼下載

下載

️使用LLM的圖像到語音GenAI工具♨️

AI 工具，透過提示 GenAI LLM 模型、Hugging Face AI 模型以及 OpenAI 和 LangChain，根據上傳圖像的上下文生成音訊短篇故事。分別部署在Streamlit和Hugging Space雲端。

在 Streamlit 上啟動應用程式

在 HuggingFace 空間上啟動應用程式

演示1：耦合測試影像輸出

您可以在相應的img-audio資料夾中收聽此測試演示圖像的相應音訊文件

系統設計

使用 Hugging Face AI 模型從圖像生成文字的應用程序，然後從文字生成音訊。

執行分為3部分：

圖像到文字：圖像到文字轉換器模型 (Salesforce/blip-image-captioning-base) 用於基於 AI 對圖像上下文的理解來生成文字場景
文字轉故事：提示OpenAI LLM模型根據產生的場景建立一個短篇故事（50個字：可依需求調整）。 GPT-3.5-渦輪
故事到語音：使用文字到語音轉換器模型（espnet/kan-bayashi_ljspeech_vits）將生成的短篇故事轉換為語音敘述的音訊文件
使用streamlit建立使用者介面以實現上傳圖像和播放音訊文件

演示3：家庭測試影像輸出您可以在相應的img-audio資料夾中收聽此測試圖像的相應音訊文件

在使用該應用程式之前，用戶應該擁有 Hugging Face 和 Open AI 的個人代幣
使用者應設定 venv 環境並安裝 ipykernel 在本機系統 ide 上執行應用程式。
使用者應將個人令牌保存在包內的「.env」檔案中，作為物件名稱下的字串物件：HUGGINGFACE_TOKEN 和 OPENAI_TOKEN
然後，使用者可以使用以下命令運行應用程式：streamlit run app.py
一旦應用程式在streamlit上運行，用戶就可以上傳目標圖像
執行將自動開始，可能需要幾分鐘才能完成
完成後，應用程式將顯示：
- 由圖像到文字轉換器 HuggingFace 模型產生的場景文本
- 提示 OpenAI LLM 產生的短篇故事
- 文字轉語音轉換器模型產生的講述短篇故事的音訊文件
在streamlit雲端和擁抱空間上部署Gen AI應用程式

示範2：野餐假期測試影像輸出