multimodal chat介面,可以存取許多工具。
YAIA 是一個複雜的multimodal chat介面,由先進的人工智慧模型提供支持,並配備了各種工具。它可以:
這些是主要組成部分:
以下是如何使用各種工具的範例:
網路搜尋:“在網路上搜尋量子運算的最新進展。”
維基百科:“查找有關人工智慧歷史的維基百科文章。”
Python 腳本:“創建一個 Python 腳本來產生按國家/地區劃分的全球二氧化碳排放量的條形圖。”
素描本:“開始一本新的素描本,寫一篇關於如何用數值方法計算 Pi 的介紹。”
圖像生成:“生成一個擁有飛行汽車和高聳的摩天大樓的未來城市的圖像。”
圖片搜尋:“在圖片目錄中搜尋瀕危物種的圖片。”
arXiv Integration :“搜尋自然語言處理中深度學習的最新研究論文。”
對話生成:“在三位專家之間創建對話,討論如何設定多模式 RAG。”
文件管理:“將我們關於氣候變遷的討論摘要儲存到名為“climate_change_summary.txt”的檔案中。”
個人改進:“這裡有一個改進建議:要改進答案,請搜尋官方資源。”
清單:“啟動一個新的清單來逐項遵循任務清單。”
網路互動:
維基百科工具:
Python 腳本:
內容管理:
影像處理:
arXiv 整合:
對話生成:
文件管理:
個人進步:
清單:
有關可用工具及其用法的完整列表,請參閱./Config/tools.json
。
克隆儲存庫:
git clone https://github.com/danilop/multimodal-chat
cd multimodal-chat
建立並啟動虛擬環境(可選但建議):
python -m venv venv
source venv/bin/activate # On Windows, use `venvScriptsactivate`
安裝所需的軟體包:
pip install -r requirements.txt
設定 AWS Lambda 函數以執行程式碼:
cd LambdaFunction
./deploy_lambda_function.sh
cd ..
若要使用 Selenium 進行網頁瀏覽,請安裝 ChromeDriver。使用自製程序:
brew install --cask chromedriver
若要輸出音頻,請安裝ffmpeg
。使用自製程序:
brew install ffmpeg
您可以使用本機 OpenSearch 執行個體或連線到遠端伺服器。對於本地設定:
導覽至 OpenSearch 目錄:
cd OpenSearch/
設定管理員密碼(首次設定),此步驟將建立.env
檔案和opensearch_env.sh
檔案:
./set_password.sh
在本機啟動 OpenSearch(需要存取.env
檔):
./opensearch_start.sh
透過檢查輸出確保 OpenSearch(2 個節點 + 儀表板)正確啟動
若要更新 OpenSearch,請使用下列腳本下載新的容器映像:
./opensearch_update.sh
對於遠端伺服器設置,請更新主腳本中的客戶端建立程式碼。
若要變更密碼,您需要刪除finch
或docker
容器,然後設定新密碼。
文字、圖像和嵌入的預設模型位於Config/config.ini
檔案中。要使用的模型是使用 Amazon Bedrock 模型 ID 或跨區域推理設定檔 ID 指定的。您需要對這些模型的權限和存取權限,如存取基礎模型中所述。
本節假設 OpenSearch 在另一個終端機視窗中本地運行,如前所述。
將 OpenSearch 管理員密碼載入到環境中:
source OpenSearch/opensearch_env.sh
運行應用程式:
python multimodal_chat.py
若要重置文字和多模式索引(注意:這不會刪除./Images/
中的圖像):
python multimodal_chat.py --reset-index
開啟網頁瀏覽器並導航至 http://127.0.0.1:7860/ 開始聊天。
以下是您可以執行此應用程式的一些範例。
在這個演示中:
在這個演示中:
在這個演示中:
在這個演示中:
在這個演示中:
在這個演示中:
歡迎向 YAIA 做出貢獻!請參閱貢獻指南,以了解有關如何提交拉取請求、報告問題或請求功能的更多資訊。
該專案根據 MIT 許可證獲得許可。有關詳細信息,請參閱許可證文件。
有關特定組件或高級用法的更多詳細信息,請參閱原始程式碼中的內聯文檔。