Study-Bot は、 Tecnológico de MontereyのEdumakersによって開発されたオープンソース プロジェクトです。これは、視覚障害のある学生が学術コースの教材を復習できるように設計されています。これは、Whisper、GPT-3.5-turbo-16k、イレブンラボのテキスト読み上げ、OpenCV などのさまざまなテクノロジーを組み込んだ、AI を活用した学習コンパニオンです。テスト目的で、ChatGPT を使用してサンプル コース教材が生成されました。
Study-Botは、ユーザーの質問を聞き、学習したいトピックのソース資料を分析し、ユーザーが持っている体育教材をその色または ArUco マーカーで検出し、答えを生成し、それを読み上げます。ユーザーをアクセス可能な実行可能アプリケーションとして扱います。開発およびテストの目的では、 Pythonインタープリターを介してCLIプログラムとして実行することも、 GUI を使用して実行することもできます。
次の良いステップとしては、このシステムをデスクトップ アプリケーションとして配布するためのより高度なユーザー インターフェイスに組み込むこと、色や ArUco マーカーに依存せずに体育教材を検出できるコンピュータ ビジョン モデルを作成すること、およびパフォーマンスの向上や、新しいインタラクティブ機能。
whisper
ライブラリを問題なく使用できるように、Python 3.9.9 を使用することをお勧めします。現在のPythonインストールを削除する必要がないようにするには、仮想環境を使用してこの特定のバージョンのPythonを使用することをお勧めします。必要な依存関係をインストールするには、次のコマンドを実行します。
pip install -r requirements.txt
プロジェクトを実行する前に、ここで使用する AI サービス用の独自の API キーの取得など、追加の手順を実行する必要があります。詳細については、このプロジェクトの使用方法に関する包括的なガイドについてのDocumentation
フォルダーを参照してください。
Study-Bot は、次の既存のサービスとテクノロジーに依存しています。
Whisper:音声からテキストへの変換に使用され、ユーザーが質問を話して GPT モデルに入力できるようにします。
gpt-3.5-turbo-16k:質問の処理と回答の生成に使用されます。モデルの 16k バージョンは、大量のソース素材を処理するために必要な 16,385 トークンのコンテキスト ウィンドウ サイズに合わせて選択されました。
イレブンラボのテキスト読み上げ:テキスト読み上げ変換に使用され、ユーザーは GPT モデルによって生成された回答を聞くことができます。
OpenCV:物理オブジェクトの識別に使用され、ユーザーが保持しているもののコンテキストを追加して GPT-3.5-16k モデルが質問に答えるのを支援します。
このプロジェクトを独自のリファレンスとして使用するか、フォークして独自の貢献を行ってください。機能リクエストやバグレポートに関する GitHub の問題は歓迎されており、視覚障害のあるユーザーからのフィードバックが含まれている場合は特に評価されます。