multimodal chat下載 - multimodal chat原始碼下載

multimodal chat

Ai源碼

1.0.0

下載

另一個智能助手（YAIA）

multimodal chat介面，可以存取許多工具。

描述

YAIA 是一個複雜的multimodal chat介面，由先進的人工智慧模型提供支持，並配備了各種工具。它可以：

即時搜尋並瀏覽網頁
查詢維基百科以獲取信息
執行新聞和地圖搜索
安全地執行可產生文字和圖像（例如圖表和圖表）的 Python 程式碼
撰寫混合文字和圖像的長篇文章
生成、搜尋和比較影像
分析文件和影像
搜尋並下載 arXiv 論文
生成對話並將其儲存為文字和音訊文件
將檔案儲存到輸出目錄
追蹤個人改進
管理任務追蹤清單

建築學

這些是主要組成部分：

Web 介面的 Gradio 5
Amazon Bedrock 處理對話和工具使用
Anthropic Claude 3.5 Sonnet 為主要模型
Amazon Titan 文字與多模式嵌入模型
亞馬遜泰坦圖像生成器
OpenSearch 文字和多模式索引
用於語音的 Amazon Polly
用於程式碼解釋器的 AWS Lambda

範例

以下是如何使用各種工具的範例：

網路搜尋：“在網路上搜尋量子運算的最新進展。”
維基百科：“查找有關人工智慧歷史的維基百科文章。”
Python 腳本：“創建一個 Python 腳本來產生按國家/地區劃分的全球二氧化碳排放量的條形圖。”
素描本：“開始一本新的素描本，寫一篇關於如何用數值方法計算 Pi 的介紹。”
圖像生成：“生成一個擁有飛行汽車和高聳的摩天大樓的未來城市的圖像。”
圖片搜尋：“在圖片目錄中搜尋瀕危物種的圖片。”
arXiv Integration ：“搜尋自然語言處理中深度學習的最新研究論文。”
對話生成：“在三位專家之間創建對話，討論如何設定多模式 RAG。”
文件管理：“將我們關於氣候變遷的討論摘要儲存到名為“climate_change_summary.txt”的檔案中。”
個人改進：“這裡有一個改進建議：要改進答案，請搜尋官方資源。”
清單：“啟動一個新的清單來逐項遵循任務清單。”

主要功能和工具

網路互動：
- DuckDuckGo 文字搜尋：執行網路搜尋
- DuckDuckGo 新聞搜尋：搜尋最近的新聞文章
- DuckDuckGo 地圖搜尋：搜尋位置與企業
- DuckDuckGo 圖片搜尋：搜尋公開可用的圖片
- Web 瀏覽器：瀏覽網站並檢索其內容
維基百科工具：
- 維基百科搜尋：尋找相關的維基百科頁面
- 維基百科地理資料搜尋：按地理位置定位維基百科文章
- 維基百科頁面檢索器：取得完整的維基百科頁面內容
Python 腳本：
- 運行 Python 腳本進行計算、測試和輸出生成，包括文字和圖像
- 可以將Python模組加入Python解釋器中
- Python程式碼在AWS Lambda提供的安全性環境中運行
內容管理：
- 個人存檔：使用語意資料庫儲存和檢索文字、Markdown 或 HTML 內容
- Sketchbook：管理多頁素描本，用於撰寫和審查長格式內容。支援多種輸出格式：
  - Markdown (.md)：方便閱讀與編輯
  - Word 文件 (.docx)：用於文件編輯
影像處理：
- 圖像生成：根據文字提示建立圖像
- 圖片目錄搜尋：按描述搜尋圖像
- 影像相似性搜尋：根據參考影像尋找類似影像
- 隨機影像：從目錄中檢索隨機影像
- 按 ID 取得影像：使用 ID 從目錄中擷取特定影像
- 影像目錄計數：傳回目錄中影像的總數
- 下載圖片：將 URL 中的圖像新增至目錄中
arXiv 整合：
- 搜尋並下載 arXiv 論文
- 將紙本內容存放在存檔中以便於檢索
對話生成：
- 將內容轉變為兩到四人之間的對話
- 使用文字轉語音為對話產生音訊文件
文件管理：
- 儲存檔案：允許將文字內容儲存到輸出目錄中具有指定名稱的檔案中
個人進步：
- 追蹤未來改進的建議和錯誤
清單：
- 管理任務列表，能夠新增項目、將其標記為已完成以及查看進度

有關可用工具及其用法的完整列表，請參閱./Config/tools.json 。

要求

容器工具：Docker 或 Finch（要安裝 Finch，請按照此處的說明進行操作）
Python 3.12 或更高版本
具有存取 Amazon Bedrock、AWS Lambda 和 Amazon ECR 適當權限的 AWS 帳戶

安裝

克隆儲存庫：

 git clone https://github.com/danilop/multimodal-chat
cd multimodal-chat

建立並啟動虛擬環境（可選但建議）：

 python -m venv venv
source venv/bin/activate # On Windows, use `venvScriptsactivate`

安裝所需的軟體包：
```
 pip install -r requirements.txt
```

設定 AWS Lambda 函數以執行程式碼：

 cd LambdaFunction
./deploy_lambda_function.sh
cd ..

若要使用 Selenium 進行網頁瀏覽，請安裝 ChromeDriver。使用自製程序：
```
 brew install --cask chromedriver
```
若要輸出音頻，請安裝ffmpeg 。使用自製程序：
```
 brew install ffmpeg
```

設定開放搜尋

您可以使用本機 OpenSearch 執行個體或連線到遠端伺服器。對於本地設定：

導覽至 OpenSearch 目錄：
```
 cd OpenSearch/
```
設定管理員密碼（首次設定），此步驟將建立.env檔案和opensearch_env.sh檔案：
```
 ./set_password.sh
```
在本機啟動 OpenSearch（需要存取.env檔）：
```
 ./opensearch_start.sh
```
透過檢查輸出確保 OpenSearch（2 個節點 + 儀表板）正確啟動
若要更新 OpenSearch，請使用下列腳本下載新的容器映像：
```
 ./opensearch_update.sh
```

對於遠端伺服器設置，請更新主腳本中的客戶端建立程式碼。

若要變更密碼，您需要刪除finch或docker容器，然後設定新密碼。

用法

文字、圖像和嵌入的預設模型位於Config/config.ini檔案中。要使用的模型是使用 Amazon Bedrock 模型 ID 或跨區域推理設定檔 ID 指定的。您需要對這些模型的權限和存取權限，如存取基礎模型中所述。

本節假設 OpenSearch 在另一個終端機視窗中本地運行，如前所述。

將 OpenSearch 管理員密碼載入到環境中：
```
 source OpenSearch/opensearch_env.sh
```
運行應用程式：
```
 python multimodal_chat.py
```
若要重置文字和多模式索引（注意：這不會刪除./Images/中的圖像）：
```
 python multimodal_chat.py --reset-index
```
開啟網頁瀏覽器並導航至 http://127.0.0.1:7860/ 開始聊天。