multimodal chat界面,可以访问许多工具。
YAIA 是一个复杂的multimodal chat界面,由先进的人工智能模型提供支持,并配备了各种工具。它可以:
这些是主要组成部分:
以下是如何使用各种工具的示例:
网络搜索:“在网络上搜索量子计算的最新进展。”
维基百科:“查找有关人工智能历史的维基百科文章。”
Python 脚本:“创建一个 Python 脚本来生成按国家/地区划分的全球二氧化碳排放量的条形图。”
素描本:“开始一本新的素描本,写一篇关于如何用数值方法计算 Pi 的介绍。”
图像生成:“生成一个拥有飞行汽车和高耸的摩天大楼的未来城市的图像。”
图片搜索:“在图片目录中搜索濒危物种的图片。”
arXiv Integration :“搜索自然语言处理中深度学习的最新研究论文。”
对话生成:“在三位专家之间创建对话,讨论如何设置多模式 RAG。”
文件管理:“将我们关于气候变化的讨论摘要保存到名为“climate_change_summary.txt”的文件中。”
个人改进:“这里有一个改进建议:要改进答案,请搜索官方资源。”
清单:“启动一个新的清单来逐项遵循任务列表。”
网络互动:
维基百科工具:
Python 脚本:
内容管理:
图像处理:
arXiv 集成:
对话生成:
文件管理:
个人进步:
清单:
有关可用工具及其用法的完整列表,请参阅./Config/tools.json
。
克隆存储库:
git clone https://github.com/danilop/multimodal-chat
cd multimodal-chat
创建并激活虚拟环境(可选但推荐):
python -m venv venv
source venv/bin/activate # On Windows, use `venvScriptsactivate`
安装所需的软件包:
pip install -r requirements.txt
设置 AWS Lambda 函数以执行代码:
cd LambdaFunction
./deploy_lambda_function.sh
cd ..
要使用 Selenium 进行网页浏览,请安装 ChromeDriver。使用自制程序:
brew install --cask chromedriver
要输出音频,请安装ffmpeg
。使用自制程序:
brew install ffmpeg
您可以使用本地 OpenSearch 实例或连接到远程服务器。对于本地设置:
导航到 OpenSearch 目录:
cd OpenSearch/
设置管理员密码(首次设置),此步骤将创建.env
文件和opensearch_env.sh
文件:
./set_password.sh
在本地启动 OpenSearch(需要访问.env
文件):
./opensearch_start.sh
通过检查输出确保 OpenSearch(2 个节点 + 仪表板)正确启动
要更新 OpenSearch,请使用以下脚本下载新的容器映像:
./opensearch_update.sh
对于远程服务器设置,请更新主脚本中的客户端创建代码。
要更改密码,您需要删除finch
或docker
容器,然后设置新密码。
文本、图像和嵌入的默认模型位于Config/config.ini
文件中。要使用的模型是使用 Amazon Bedrock 模型 ID 或跨区域推理配置文件 ID 指定的。您需要对这些模型的权限和访问权限,如访问基础模型中所述。
本节假设 OpenSearch 在另一个终端窗口中本地运行,如前所述。
将 OpenSearch 管理员密码加载到环境中:
source OpenSearch/opensearch_env.sh
运行应用程序:
python multimodal_chat.py
要重置文本和多模式索引(注意:这不会删除./Images/
中的图像):
python multimodal_chat.py --reset-index
打开网络浏览器并导航至 http://127.0.0.1:7860/ 开始聊天。
以下是您可以执行此应用程序的一些示例。
在这个演示中:
在这个演示中:
在这个演示中:
在这个演示中:
在这个演示中:
在这个演示中:
欢迎向 YAIA 做出贡献!请参阅贡献指南,了解有关如何提交拉取请求、报告问题或请求功能的更多信息。
该项目根据 MIT 许可证获得许可。有关详细信息,请参阅许可证文件。
有关特定组件或高级用法的更多详细信息,请参阅源代码中的内联文档。