ASRInferenceEngine
1.0.0
これは、アプリケーションとクラウドベースの AI サービスの間のインターフェイスとして機能する FastAPI ベースのサーバーです。次の 3 つの主要なタスクに焦点を当てています。
現在、これらのサービスには OpenAI の API が使用されていますが、将来的には他のプロバイダーを追加できるように設計されています。
文字起こし(音声からテキストへ)
テキスト読み上げ
スピーチツースピーチ
.
├── cloud_providers/
│ ├── base.py
│ └── openai_api_handler.py
├── server/
│ ├── main.py
│ ├── routers/
│ │ ├── transcribe.py
│ │ ├── tts.py
│ │ └── speech_to_speech.py
│ └── utils/
│ └── logger.py
|
└── requirements.txt
└── README.md
リポジトリのクローンを作成する
仮想環境を作成します。
python -m venv venv
source venv/bin/activate
依存関係をインストールします。
pip install -r requirements
環境変数を設定します。
export OPENAI_API_KEY=your_openai_api_key
サーバーを起動するには、プロジェクト ディレクトリに移動して次を実行します。
python server/main.py
これにより、FastAPI サーバー (通常はhttp://localhost:8000
が起動します。
API docs
を確認してください。 アプリケーションは、コンポーネントごとに個別のログ ファイルを使用して、ログ記録にローテーション ファイル ハンドラーを使用します。
logs/main.log
: メインアプリケーションログlogs/transcription.log
: 文字起こし固有のログlogs/tts.log
: テキスト読み上げログlogs/speech_to_speech.log
: Speech-to-Speech ログこのアプリケーションには、API エラーや WebSocket の切断など、さまざまなシナリオに対応するエラー処理が含まれています。エラーはログに記録され、適切な HTTP 例外が発生します。
このプロジェクトは拡張性を念頭に置いて設計されています。 base.py
のCloudProviderBase
抽象基本クラスを使用すると、OpenAI を超えた追加のクラウド プロバイダーを簡単に統合できます。
貢献は大歓迎です!お気軽にプルリクエストを送信してください。
[ここにライセンスを指定してください]