multimodal chat下载 - multimodal chat源代码下载

multimodal chat

Ai源码

1.0.0

下载

另一个智能助手（YAIA）

multimodal chat界面，可以访问许多工具。

描述

YAIA 是一个复杂的multimodal chat界面，由先进的人工智能模型提供支持，并配备了各种工具。它可以：

实时搜索和浏览网页
查询维基百科以获取信息
执行新闻和地图搜索
安全地执行可生成文本和图像（例如图表和图表）的 Python 代码
撰写混合文本和图像的长篇文章
生成、搜索和比较图像
分析文档和图像
搜索并下载 arXiv 论文
生成对话并将其保存为文本和音频文件
将文件保存到输出目录
跟踪个人改进
管理任务跟踪清单

建筑学

这些是主要组成部分：

Web 界面的 Gradio 5
Amazon Bedrock 处理对话和工具使用
Anthropic Claude 3.5 Sonnet 作为主要模型
Amazon Titan 文本和多模式嵌入模型
亚马逊泰坦图像生成器
OpenSearch 文本和多模式索引
用于语音的 Amazon Polly
用于代码解释器的 AWS Lambda

示例

以下是如何使用各种工具的示例：

网络搜索：“在网络上搜索量子计算的最新进展。”
维基百科：“查找有关人工智能历史的维基百科文章。”
Python 脚本：“创建一个 Python 脚本来生成按国家/地区划分的全球二氧化碳排放量的条形图。”
素描本：“开始一本新的素描本，写一篇关于如何用数值方法计算 Pi 的介绍。”
图像生成：“生成一个拥有飞行汽车和高耸的摩天大楼的未来城市的图像。”
图片搜索：“在图片目录中搜索濒危物种的图片。”
arXiv Integration ：“搜索自然语言处理中深度学习的最新研究论文。”
对话生成：“在三位专家之间创建对话，讨论如何设置多模式 RAG。”
文件管理：“将我们关于气候变化的讨论摘要保存到名为“climate_change_summary.txt”的文件中。”
个人改进：“这里有一个改进建议：要改进答案，请搜索官方资源。”
清单：“启动一个新的清单来逐项遵循任务列表。”

主要功能和工具

网络互动：
- DuckDuckGo 文本搜索：执行网络搜索
- DuckDuckGo 新闻搜索：搜索最近的新闻文章
- DuckDuckGo 地图搜索：搜索位置和企业
- DuckDuckGo 图片搜索：搜索公开可用的图片
- Web 浏览器：浏览网站并检索其内容
维基百科工具：
- 维基百科搜索：查找相关的维基百科页面
- 维基百科地理数据搜索：按地理位置定位维基百科文章
- 维基百科页面检索器：获取完整的维基百科页面内容
Python 脚本：
- 运行 Python 脚本进行计算、测试和输出生成，包括文本和图像
- 可以将Python模块添加到Python解释器中
- Python代码在AWS Lambda提供的安全环境中运行
内容管理：
- 个人存档：使用语义数据库存储和检索文本、Markdown 或 HTML 内容
- Sketchbook：管理多页素描本，用于编写和审阅长格式内容。支持多种输出格式：
  - Markdown (.md)：方便阅读和编辑
  - Word 文档 (.docx)：用于文档编辑
图像处理：
- 图像生成：根据文本提示创建图像
- 图像目录搜索：按描述搜索图像
- 图像相似性搜索：根据参考图像查找相似图像
- 随机图像：从目录中检索随机图像
- 按 ID 获取图像：使用 ID 从目录中检索特定图像
- 图像目录计数：返回目录中图像的总数
- 下载图像：将 URL 中的图像添加到目录中
arXiv 集成：
- 搜索并下载 arXiv 论文
- 将纸质内容存储在存档中以便于检索
对话生成：
- 将内容转变为两到四人之间的对话
- 使用文本转语音为对话生成音频文件
文件管理：
- 保存文件：允许将文本内容保存到输出目录中具有指定名称的文件中
个人进步：
- 跟踪未来改进的建议和错误
清单：
- 管理任务列表，能够添加项目、将其标记为已完成以及查看进度

有关可用工具及其用法的完整列表，请参阅./Config/tools.json 。

要求

容器工具：Docker 或 Finch（要安装 Finch，请按照此处的说明进行操作）
Python 3.12 或更高版本
具有访问 Amazon Bedrock、AWS Lambda 和 Amazon ECR 适当权限的 AWS 账户

安装

克隆存储库：

 git clone https://github.com/danilop/multimodal-chat
cd multimodal-chat

创建并激活虚拟环境（可选但推荐）：

 python -m venv venv
source venv/bin/activate # On Windows, use `venvScriptsactivate`

安装所需的软件包：
```
 pip install -r requirements.txt
```

设置 AWS Lambda 函数以执行代码：

 cd LambdaFunction
./deploy_lambda_function.sh
cd ..

要使用 Selenium 进行网页浏览，请安装 ChromeDriver。使用自制程序：
```
 brew install --cask chromedriver
```
要输出音频，请安装ffmpeg 。使用自制程序：
```
 brew install ffmpeg
```

设置开放搜索

您可以使用本地 OpenSearch 实例或连接到远程服务器。对于本地设置：

导航到 OpenSearch 目录：
```
 cd OpenSearch/
```
设置管理员密码（首次设置），此步骤将创建.env文件和opensearch_env.sh文件：
```
 ./set_password.sh
```
在本地启动 OpenSearch（需要访问.env文件）：
```
 ./opensearch_start.sh
```
通过检查输出确保 OpenSearch（2 个节点 + 仪表板）正确启动
要更新 OpenSearch，请使用以下脚本下载新的容器映像：
```
 ./opensearch_update.sh
```

对于远程服务器设置，请更新主脚本中的客户端创建代码。

要更改密码，您需要删除finch或docker容器，然后设置新密码。

用法

文本、图像和嵌入的默认模型位于Config/config.ini文件中。要使用的模型是使用 Amazon Bedrock 模型 ID 或跨区域推理配置文件 ID 指定的。您需要对这些模型的权限和访问权限，如访问基础模型中所述。

本节假设 OpenSearch 在另一个终端窗口中本地运行，如前所述。

将 OpenSearch 管理员密码加载到环境中：
```
 source OpenSearch/opensearch_env.sh
```
运行应用程序：
```
 python multimodal_chat.py
```
要重置文本和多模式索引（注意：这不会删除./Images/中的图像）：
```
 python multimodal_chat.py --reset-index
```
打开网络浏览器并导航至 http://127.0.0.1:7860/ 开始聊天。

演示视频

以下是您可以执行此应用程序的一些示例。

浏览互联网并使用语义档案

在这个演示中：

使用 Selenium 和 DuckDuckGo 的特定工具（搜索、新闻、地理搜索）和维基百科浏览网站
使用语义文本归档工具对文档进行归档并按关键字检索

导入和搜索图像

在这个演示中：

使用多模式索引和本地文件系统来管理图像目录
存储带有生成描述的图像
通过文本描述检索图像（语义搜索）
通过与另一张图像的相似度来检索图像
检索随机图像

生成和搜索图像

在这个演示中：

从文本描述生成图像
文本转图像提示是根据聊天指令生成的
这种方法允许使用整体对话来改进提示

Python代码解释器

在这个演示中：

运行人工智能生成的代码来解决问题
在具有基本权限的 AWS Lambda 函数中运行以确保安全
通过容器镜像部署，轻松添加Python模块
仅使用 Python，但易于扩展

在“素描本”上书写

在这个演示中：

帮助编写长文本（例如文章和博客文章）的工具
提供对分页文本的顺序访问
减轻模型输入和输出大小之间的“不对称”

带有 Python 代码审查的 Sketchbook

在这个演示中：

结合使用多种工具可获得最佳结果
从速写本开始写长文
文章包含代码片段
审查运行并测试所有代码片段并更新每个页面修复代码（如果需要）并添加实际结果

故障排除

如果您遇到 OpenSearch 问题，请检查连接设置并确保该服务正在运行
对于 AWS Lambda 函数错误，请验证您的 AWS 凭证和权限
如果图像处理失败，请确保安装了必要的库并检查文件权限

贡献

欢迎向 YAIA 做出贡献！请参阅贡献指南，了解有关如何提交拉取请求、报告问题或请求功能的更多信息。

执照

该项目根据 MIT 许可证获得许可。有关详细信息，请参阅许可证文件。

使用技巧

结合多种工具来完成复杂的任务。例如，使用网络搜索查找信息，然后使用速写本写摘要，最后生成有关该主题的对话。
使用图像时，您可以生成新图像、搜索现有图像或从网络下载图像以添加到目录中。
使用 arXiv 集成来了解您感兴趣领域的最新研究。
对话生成工具非常适合创建引人入胜的内容或准备演示。
定期检查和更新您的个人改进，以跟踪您的进步和成长领域。

有关特定组件或高级用法的更多详细信息，请参阅源代码中的内联文档。

展开

附加信息

版本 1.0.0
类型 Ai源码
更新时间 2025-01-01
大小 63.1KB
来自于 Github

multimodal chat

另一个智能助手（YAIA）

描述

建筑学

示例

主要功能和工具

要求

安装

设置开放搜索

用法

演示视频

浏览互联网并使用语义档案

导入和搜索图像

生成和搜索图像

Python代码解释器

在“素描本”上书写

带有 Python 代码审查的 Sketchbook

故障排除

贡献

执照

使用技巧

ApnaChat Realtime Chat App In Flutter Firebase

huanhuan chat

GitHub sgrebnov/cordova plugin background download

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions