?️LLM を使用した画像音声変換 GenAI ツール?♨️
OpenAI および LangChain と連携して GenAI LLM モデル、Hugging Face AI モデルをプロンプトすることにより、アップロードされた画像のコンテキストに基づいて音声ショート ストーリーを生成する AI ツール。 Streamlit と Hugging Space Cloud に個別にデプロイされます。
?Streamlit Cloudでアプリを実行
Streamlit でアプリを起動
?HuggingFace Space Cloudでアプリを実行
HuggingFace Space でアプリを起動する
デモ:
このテストデモ画像の音声ファイルは、それぞれのimg-audio
フォルダーで聞くことができます。
?システム設計
?アプローチ
Hugging Face AI モデルを使用して画像からテキストを生成し、そのテキストから音声を生成するアプリ。
実行は 3 つの部分に分かれています。
- 画像からテキストへ:画像からテキストへの変換モデル (Salesforce/blip-image-captioning-base) を使用して、画像コンテキストの AI 理解に基づいてテキスト シナリオを生成します。
- テキストからストーリーへ: OpenAI LLM モデルは、生成されたシナリオに基づいて短いストーリー (50 ワード: 必要に応じて調整可能) を作成するように求められます。 gpt-3.5-ターボ
- ストーリーから音声へ:テキストから音声への変換モデル (espnet/kan-bashi_ljspeech_vits) を使用して、生成された短編小説を音声ナレーション付きオーディオ ファイルに変換します。
- ユーザー インターフェイスは、streamlit を使用して構築されており、画像のアップロードと音声ファイルの再生を可能にします。
このテスト画像の各オーディオ ファイルは、それぞれのimg-audio
フォルダーで聞くことができます。
?要件
- OS
- Python-dotenv
- 変圧器
- トーチ
- ラングチェーン
- オープンナイ
- リクエスト
- 流光に照らされた
使用法
- アプリを使用する前に、ユーザーは Hugging Face と Open AI 用の個人トークンを持っている必要があります
- ユーザーは venv 環境を設定し、ローカル システム IDE でアプリを実行するための ipykernel ライブラリをインストールする必要があります。
- ユーザーは、パッケージ内の「.env」ファイルに個人トークンをオブジェクト名 HUGGGINGFACE_TOKEN および OPENAI_TOKEN の文字列オブジェクトとして保存する必要があります。
- ユーザーは次のコマンドを使用してアプリを実行できます: streamlit run app.py
- アプリが streamlit で実行されると、ユーザーはターゲット画像をアップロードできます
- 実行は自動的に開始され、完了するまでに数分かかる場合があります
- 完了すると、アプリには次のように表示されます。
- 画像からテキストへの変換HuggingFaceモデルによって生成されたシナリオテキスト
- OpenAI LLM のプロンプトによって生成されたショート ストーリー
- テキスト音声変換モデルによって生成された短編小説をナレーションする音声ファイル
- Gen AI アプリをストリームリット クラウドとハグ スペースにデプロイ
▶️インストール
リポジトリのクローンを作成します。
git clone https://github.com/GURPREETKAURJETHRA/Image-to-Speech-GenAI-Tool-Using-LLM.git
必要な Python パッケージをインストールします。
pip install -r requirements.txt
プロジェクトのルート ディレクトリに次の内容の .env ファイルを作成して、OpenAI API キーとハグ フェイス トークンをセットアップします。
OPENAI_API_KEY=<your-api-key-here>
HUGGINGFACE_API_TOKEN=<<your-access-token-here>
Streamlit アプリを実行します。
streamlit run app.py
©️ライセンス
MIT ライセンスに基づいて配布されます。詳細については、 LICENSE
を参照してください。
この LLM プロジェクトが気に入ったら、このリポジトリにドロップしてください。コントリビューションは大歓迎です!この AI Img-Speech Converter を改善するための提案がある場合は、プル リクエストを送信してください。
フォローしてください