ai vinyl specialist下载 - ai vinyl specialist源代码下载

ai vinyl specialist

Ai源码

1.0.0

下载

大卫的黑胶唱片专家

大卫是黑胶唱片方面的专家。您可以要求他提供有关您 Discogs 收藏中任何唱片的推荐或其他信息。大卫将很乐意为您提供帮助。

技术细节

此 LLM 应用程序是对话代理的一个简单示例，它使用 Discogs API 提供有关黑胶唱片的信息。它由 4 个主要构建块组成：

Discogs API 客户端：给定用户名，它从 Discogs API 检索黑胶唱片集合。
AI助理引擎（David） ：给定一个记录集合，它提供了一个关于记录的对话界面。
Websockets服务器：提供Websockets服务器与AI助手交互。
用户界面：它提供了一个简单的用户界面，通过 websockets 与 AI 助手进行交互。

目前它使用LangChain4j作为框架，GPT-4o作为AI辅助引擎，但它可以很容易地适应使用其他引擎。

下图中的应用程序架构是由 ArchUnit 框架通过 ArchitectureTest 类中的测试强制执行的。

架构图

经验教训

该项目的 UI 是使用以下提示开发的：

 I need the code for an HTML 5 page that contains an input field for a Discogs username 
and a text area for inserting prompts for the application to send to AI agents. 
Above the text area there should be the space in which the AI responses are displayed, in the ChatGPT style

从 GitHub Copilot 生成的 HTML5 代码提供了 UI 的初始视觉效果，然后我对其进行了修改以添加 websocket 连接以及从 AI 助手发送和接收消息的逻辑。我发现这是一种非常快速的原型设计方法。然后，我转向了 ant-design 中更强大的组件，包括 pro-chat。

我最初想使用 llama3。 llama3 模型目前不支持工具（2024 年 6 月）。这意味着AI助手无法自行收集Discogs用户名并检索记录集合。我们迁移到 GPT-4o，以便 David 可以询问 Discogs 信息并不再需要任何表格。

有些法学硕士不如其他法学硕士聪明。尽管 Mistral 7b 模型支持工具，但我无法从中得到好的答案。它甚至无法通过我的集成测试。这样，我就无法使用免费的工具来运行法学硕士课程。

幻觉是一种痛苦。我开始了 RAG 之旅，以尽量减少这种情况。由于 David 从事音乐领域的工作，维基百科是 RAG 想到的第一个知识库。也许我可以利用 MediaWiki API 来搜索与对话相关的音乐页面。目前，我只使用 Google 搜索，它有时会有所帮助，但绝对不足以支付它用代币增加的成本。

测试法学硕士申请是一个挑战。我做了比平时更多的集成测试。这导致开发周期变慢。此外，人工智能助手的概率性质使得很难以确定性的方式测试应用程序。

在法学硕士世界中，单元测试涉及提示人工智能模型，而不仅仅是调用代码单元。使用基于云的模型时，运行单元测试是有成本的。我还尝试使用第二个人工智能代理来帮助我断言主人工智能的结果。这是一种很有前途的方法，因为我们可以进行语义断言，而不仅仅是字符串处理。这里的权衡是它也会产生成本，并增加法学硕士引入的概率错误的风险。

走对/走错

向右走：少量提示。当我将此技术应用于我的系统提示时，推荐器的结果显着改善。我添加了角色、语气、对话背后的一些背景，以及一些关于人工智能期望做什么的例子。
向右走：AI 测试审核员。 AI 集成测试的断言通常涉及字符串处理。我认为使用另一个专门审查测试结果的人工智能会促进这一过程。我会给它一个声明和主人工智能的响应，如果通过或失败，测试审核器就会返回。由于两个人工智能一起工作时概率错误的累积，导致使用 llama3 的测试不稳定。当迁移到 GPT-4o 时，它被证明是一个非常好的工具。它启用了语义断言。使用您最强大的法学硕士来测试断言。
向右走：工具。我最初使用应用程序代码从 Discogs 获取黑胶唱片集合，并将其添加到法学硕士的系统提示符中。这种方法需要 UI 上有一个输入字段来收集这些数据。当更换为工具时，人工智能将能够自行收集用户的 Discogs 用户名，并使其更具对话性。它消除了对 UI 表单的需要。
错误：成本。向人工智能代理添加功能涉及增加每次聊天中使用的令牌数量。当使用微调模型时，它会增加更多。我们在少样本提示中增加的示例数量越多，我们为系统提示消息支付的费用就越多。目前使用GPT-4o的成本很高，选择LLM要慎重考虑。 LangChain 提供了一个抽象层，可以轻松更改底层 LLM。
错误：使用 Ollama 和 llama3。我最初使用在 Ollama 内运行的 llama3 作为免费构建一代 AI 应用程序原型的方法。它最初有效，但很快导致开发周期非常缓慢。我的测试套件需要 5 分钟才能运行 20 个测试，同时运行可重用的测试容器。运行应用程序时，启动对话大约有 1 分钟的冷启动延迟。我不得不用它来替代像 ChatGPT 3.5 这样基于云的 LLM。