Interactive RAG下载 - Interactive RAG源代码下载

介绍

代理正在彻底改变我们利用语言模型进行决策和执行任务的方式。代理是使用语言模型做出决策和执行任务的系统。与传统方法相比，它们旨在处理复杂的场景并提供更大的灵活性。代理可以被认为是推理引擎，利用语言模型来处理信息、检索相关数据、摄取（块/嵌入）并生成响应。

未来，随着语言模型的进步，代理将在处理文本、自动化任务和改善人机交互方面发挥至关重要的作用。

在此示例中，我们将特别关注在动态检索增强生成（RAG）中利用代理。使用 ActionWeaver 和 MongoDB Atlas，您将能够通过对话交互实时修改 RAG 策略。无论是选择更多块、增加块大小还是调整其他参数，您都可以微调 RAG 方法以实现所需的响应质量和准确性。您甚至可以使用自然语言向矢量数据库添加/删除源！

更新

2024-02-18

额外

总结块+块元数据提取（可选）

        # LLM Config
        self.rag_config = {
            "num_sources": 2,
            "source_chunk_size": 1000,
            "min_rel_score": 0.00,
            "unique": True,
            "summarize_chunks": True, # adds latency at ingest, everything comes at a cost
        }

分块文本：总结或存储原始数据？

分块文本很棒，但是如何存储它呢？
总结可以节省空间并加快速度，但可能会丢失细节。
存储原始数据是准确的，但体积庞大、速度较慢且“嘈杂”。

总结的优点：

效率：文本尺寸更小，处理速度更快
焦点：突出关键点，以便快速检索信息
普遍性：捕捉核心含义，减少冗余

总结的缺点：

信息丢失：一些细节被遗忘
主观性：根据方法的不同，摘要可能会有偏差
上下文依赖：如果没有周围的文本，可能没有意义
计算成本：生成良好的摘要可能会很昂贵（并且会增加摄取延迟！）

什么适合你？这取决于您的需求！考虑：

细节的重要性
速度和效率要求
需要上下文
可用资源

视频

演示1

流动

提问
检查 VectorStore -> 如果 VectorStore 结果不足以回答，则以对话方式执行网络搜索
添加/删除 VectorStore 的源
微调 RAG 策略以获得所需的响应质量

入门

创建新的Python环境

python3 -m venv env

激活新的Python环境

 source env/bin/activate

安装要求

pip3 install -r requirements.txt

在params.py中设置参数：

 # MongoDB 
MONGODB_URI = " "
DATABASE_NAME = " genai "
COLLECTION_NAME = " rag "

# If using OpenAI
OPENAI_API_KEY = " "

# If using Azure OpenAI
OPENAI_TYPE = " azure "
OPENAI_API_VERSION = " 2023-10-01-preview "
OPENAI_AZURE_ENDPOINT = " https://.openai.azure.com/ "
OPENAI_AZURE_DEPLOYMENT = " "

使用以下定义创建搜索索引

{
  "mappings" : {
    "dynamic" : true ,
    "fields" : {
      "embedding" : {
        "dimensions" : 384 ,
        "similarity" : " cosine " ,
        "type" : " knnVector "
      }
    }
  }
}

设置环境

 export OPENAI_API_KEY=

运行 RAG 应用程序

env/bin/streamlit run rag/app.py

应用程序生成的日志信息将附加到app.log中。

用法

该机器人支持以下操作：回答问题、搜索网络、读取 URL、删除源、列出所有源以及重置消息。它还支持称为 iRAG 的操作，使您可以动态控制代理的 RAG 策略。

例如：“将 RAG 配置设置为 3 个源，块大小为 1250”=> 新的 RAG 配置：{'num_sources': 3, 'source_chunk_size': 1250, 'min_rel_score': 0, 'unique': True}。

 def __call__(self, text):
        text = self.preprocess_query(text)
        self.messages += [{"role": "user", "content":text}]
        response = self.llm.create(messages=self.messages, actions = [
            self.read_url,self.answer_question,self.remove_source,self.reset_messages,
            self.iRAG, self.get_sources_list,self.search_web
        ], stream=True)
        return response

如果机器人无法根据 Atlas Vector 存储中存储的数据和您的 RAG 策略（源数量、块大小、min_rel_score 等）提供问题的答案，它将启动 Web 搜索以查找相关信息。然后，您可以指示机器人读取这些结果并从中学习。

交互式检索增强生成

RAG 很酷，但制定正确的“RAG 策略”却很棘手。块大小和独特来源的数量将直接影响法学硕士生成的响应。

在制定有效的 RAG 策略时，网络源的摄取过程、分块、嵌入、块大小以及所使用的源数量起着至关重要的作用。分块对输入文本进行分解以更好地理解，嵌入捕获含义，来源数量影响响应多样性。在块大小和源数量之间找到适当的平衡对于准确且相关的响应至关重要。需要进行实验和微调来确定最佳设置。

在我们深入“检索”之前，我们先来谈谈“摄取过程”

“摄取过程”

为什么需要一个单独的过程来将您的内容“摄取”到矢量数据库中？利用代理的魔力，我们可以轻松地将新内容添加到矢量数据库中。

有许多类型的数据库可以存储这些嵌入，每种都有其特殊用途。但对于涉及 GenAI 应用程序的任务，我推荐 MongoDB。

将 MongoDB 视为一块既可吃又可吃的蛋糕。它为您提供了进行查询的语言（Mongo 查询语言）的强大功能。它还包括 MongoDB 的所有强大功能。最重要的是，它允许您存储这些构建块（向量嵌入）并对它们进行数学运算，所有这些都在一个地方。这使得 MongoDB Atlas 成为满足您所有矢量嵌入需求的一站式商店！

详细分类：

矢量嵌入：MongoDB Atlas 提供了在文档核心存储矢量嵌入的功能。这些嵌入是通过利用 GPT4All、OpenAI 或 Hugging Face 等模型将文本、视频或音频转换为向量来生成的。

    @action("read_url", stop=True)
    def read_url(self, urls: List[str]):
        """
        Invoke this ONLY when the user asks you to 'read', 'add' or 'learn' some URL(s). 
        This function reads the content from specified sources, and ingests it into the Knowledgebase.
        URLs may be provided as a single string or as a list of strings.
        IMPORTANT! Use conversation history to make sure you are reading/learning/adding the right URLs.

        Parameters
        ----------
        urls : List[str]
            List of URLs to scrape.

        Returns
        -------
        str
            A message indicating successful reading of content from the provided URLs.
        """
        with self.st.spinner(f"```Analyzing the content in {urls}```"):
            loader = PlaywrightURLLoader(urls=urls, remove_selectors=["header", "footer"])  
            documents = loader.load_and_split(self.text_splitter)
            self.index.add_documents(
                    documents
            )       
            return f"```Contents in URLs {urls} have been successfully ingested (vector embeddings + content).```"

索引：当使用矢量搜索时，有必要创建搜索索引。此过程需要设置向量路径，将维度与您选择的模型对齐，并选择向量函数来搜索前 K 个最近邻。

 {
  "mappings": {
    "dynamic": true,
    "fields": {
      "embedding": {
        "dimensions": 384, #dimensions depends on the model
        "similarity": "cosine",
        "type": "knnVector"
      }
    }
  }
}

查询执行：对向量嵌入进行索引后，可以在嵌入的向量数据上创建聚合管道来执行查询并检索结果。这是通过使用 $vectorSearch 运算符（Atlas 中的一个新聚合阶段）来完成的。

 def recall(self, text, n_docs=2, min_rel_score=0.25, chunk_max_length=800,unique=True):
        #$vectorSearch
        print("recall=>"+str(text))
        response = self.collection.aggregate([
        {
            "$vectorSearch": {
                "index": "default",
                "queryVector": self.gpt4all_embd.embed_query(text), #GPT4AllEmbeddings()
                "path": "embedding",
                #"filter": {},
                "limit": 15, #Number (of type int only) of documents to return in the results. Value can't exceed the value of numCandidates.
                "numCandidates": 50 #Number of nearest neighbors to use during the search. You can't specify a number less than the number of documents to return (limit).
            }
        },
        {
            "$addFields": 
            {
                "score": {
                "$meta": "vectorSearchScore"
            }
        }
        },
        {
            "$match": {
                "score": {
                "$gte": min_rel_score
            }
        }
        },{"$project":{"score":1,"_id":0, "source":1, "text":1}}])
        tmp_docs = []
        str_response = []
        for d in response:
            if len(tmp_docs) == n_docs:
                break
            if unique and d["source"] in tmp_docs:
                continue
            tmp_docs.append(d["source"])
            str_response.append({"URL":d["source"],"content":d["text"][:chunk_max_length],"score":d["score"]})
        kb_output = f"Knowledgebase Results[{len(tmp_docs)}]:n```{str(str_response)}```n## n```SOURCES: "+str(tmp_docs)+"```nn"
        self.st.write(kb_output)
        return str(kb_output)

打造破布特工

使用 ActionWeaver（函数调用 API 的轻量级包装器），我们可以构建一个用户代理，使用 MongoDB Atlas 高效检索和摄取相关信息。

代理是一个中间人，将客户端请求发送到其他服务器或资源，然后返回响应。

该代理以交互式和可定制的方式向用户呈现数据，从而增强整体用户体验。

UserProxyAgent有几个可以定制的RAG参数，例如chunk_size （例如1000）、 num_sources （例如2）、 unique （例如True）和min_rel_score （例如0.00）。

 class UserProxyAgent:
    def __init__(self, logger, st):
        self.rag_config = {
            "num_sources": 2,
            "source_chunk_size": 1000,
            "min_rel_score": 0.00,
            "unique": True,
        }

为什么选择 ActionWeaver？

以下是影响我们选择 ActionWeaver 决定的一些主要优势：

轻量级且单一用途：ActionWeaver 非常轻量级，其设计重点是通过函数调用构建 LLM 应用程序。这种专业化确保了它在核心功能上表现出色，而没有不必要的复杂性。
易于使用：ActionWeaver 简化了将外部工具集成到代理工具包中的过程。使用简单的装饰器，开发人员可以轻松添加任何 Python 函数，并且还可以灵活地包含来自其他生态系统（例如 LangChain 或 Llama Index）的工具。
多功能性：尽管它很简单，但 ActionWeaver 提供了广泛的功能，包括支持强制函数执行、并行函数调用和结构化数据提取。这种多功能性使其成为一把瑞士军刀，能够处理各种与人工智能相关的任务，并无缝适应不断变化的项目需求。
最小依赖性：ActionWeaver 具有最小依赖性，仅依赖于 openai 和 pydantic 库。这减少了管理依赖项的开销。
复杂函数编排：该框架使我们能够创建复杂的函数调用序列，从而使我们能够构建复杂的层次结构或函数链。此功能使我们能够轻松执行复杂的工作流程。

ActionWeaver 基础知识：什么是代理？

代理基本上只是一个计算机程序或系统，旨在感知其环境、做出决策并实现特定目标。

将代理视为一个软件实体，它显示出一定程度的自主权，并代表其用户或所有者在其环境中执行操作，但以相对独立的方式。它通过审议其选项来主动采取行动以实现其目标。代理的核心思想是使用语言模型来选择要采取的一系列操作。与链相反，链中的一系列操作被硬编码在代码中，代理使用语言模型作为推理引擎来确定要采取哪些操作以及按什么顺序。

行动

操作是代理可以调用的函数。围绕操作有两个重要的设计考虑因素：

 Giving the agent access to the right actions
Describing the actions in a way that is most helpful to the agent

如果不考虑这两点，你将无法构建一个有效的代理。如果您不授予代理访问一组正确操作的权限，它将永远无法实现您赋予它的目标。如果你没有很好地描述这些动作，代理将不知道如何正确使用它们。

然后调用 LLM，导致对用户的响应或要采取的操作。如果确定需要响应，则将其传递给用户，并且该周期结束。如果确定需要采取行动，则采取该行动，并进行观察（行动结果）。该操作和相应的观察被添加回提示（我们称之为“代理草稿本”），并且循环重置，即。再次调用 LLM（使用更新的代理暂存器）。

在 ActionWeaver 中，我们可以通过向操作添加stop=True|False来影响循环。如果stop=True ，LLM 将立即返回函数的输出。这也将限制 LLM 进行多个函数调用。在此演示中，我们将仅使用stop=True

ActionWeaver 还支持使用orch_expr(SelectOne[actions])和orch_expr(RequireNext[actions])更复杂的循环控制，但我将把它留给第二部分。

ActionWeaver代理框架是一个以函数调用为核心的AI应用框架。它旨在实现传统计算系统与语言模型强大的推理功能的无缝合并。 ActionWeaver 是围绕 LLM 函数调用的概念构建的，而像 Langchain 和 Haystack 这样的流行框架是围绕管道的概念构建的。

ActionWeaver 的主要功能包括：

易于使用：ActionWeaver 允许开发人员使用简单的装饰器将任何 Python 函数添加为工具。修饰方法的签名和文档字符串用作描述并传递给 OpenAI 的函数 API。
作为一等公民的函数调用：函数调用是该框架的核心。
可扩展性：只需一行代码即可将任何Python代码集成到代理的工具箱中，包括来自LangChain或Llama Index等其他生态系统的工具。
函数编排：构建函数调用的复杂编排，包括复杂的层次结构或链。
可调试性：结构化日志记录改善了开发人员的体验。

OpenAI 功能的主要特点包括：

函数调用允许您将大型语言模型连接到外部工具。
聊天完成 API 生成可用于调用代码中的函数的 JSON。
最新的模型经过训练，可以检测何时应调用函数并使用符合函数签名的 JSON 进行响应。
建议在代表用户采取影响世界的行动之前建立用户确认流程。
函数调用可用于创建助手，通过调用外部 API 来回答问题、将自然语言转换为 API 调用以及从文本中提取结构化数据。
函数调用的基本步骤顺序包括调用模型、解析 JSON 响应、使用提供的参数调用函数以及将结果汇总返回给用户。
特定型号版本支持函数调用，包括gpt-4和gpt-3.5-turbo。
并行函数调用允许同时执行多个函数调用，从而减少 API 的往返次数。
令牌用于将函数注入系统消息中，并根据模型的上下文限制和计费进行计数。

了解更多信息：https://thinhdanggroup.github.io/function-calling-openai/

ActionWeaver 基础知识：动作

开发人员可以使用简单的装饰器将任何 Python 函数附加为工具。在下面的示例中，我们引入了 get_sources_list 操作，该操作将由 OpenAI API 调用。

ActionWeaver 利用装饰方法的签名和文档字符串作为描述，将它们传递给 OpenAI 的函数 API。

ActionWeaver 提供了一个轻量级包装器，负责将文档字符串/装饰器信息转换为 OpenAI API 的正确格式。

 @action(name="get_sources_list", stop=True)
    def get_sources_list(self):
        """
        Invoke this to respond to list all the available sources in your knowledge base.
        Parameters
        ----------
        None
        """
        sources = self.collection.distinct("source")  
        
        if sources:  
            result = f"Available Sources [{len(sources)}]:n"  
            result += "n".join(sources[:5000])  
            return result  
        else:  
            return "N/A"

ActionWeaver 基础知识：stop=True

stop=True 添加到操作时意味着 LLM 将立即返回函数的输出，但这也限制了 LLM 进行多个函数调用。例如，如果询问纽约和旧金山的天气，该模型将为每个城市依次调用两个单独的函数。但是，使用stop=True时，一旦第一个函数返回纽约市或旧金山的天气信息（具体取决于它首先查询哪个城市），此过程就会中断。

要更深入地了解该机器人的工作原理，请参阅 bot.py 文件。此外，您可以探索 ActionWeaver 存储库以获取更多详细信息。

ReAct提示技巧+思路链

生成推理轨迹允许模型诱导、跟踪和更新行动计划，甚至处理异常。此示例使用 ReAct 与思想链 (CoT) 相结合。

思想链

推理+行动

 [EXAMPLES]
- User Input: What is MongoDB?
- Thought: I have to think step by step. I should not answer directly, let me check my available actions before responding.
- Observation: I have an action available "answer_question".
- Action: "answer_question"('What is MongoDB?')

- User Input: Reset chat history
- Thought: I have to think step by step. I should not answer directly, let me check my available actions before responding.
- Observation: I have an action available "reset_messages".
- Action: "reset_messages"()

- User Input: remove source https://www.google.com, https://www.example.com
- Thought: I have to think step by step. I should not answer directly, let me check my available actions before responding.
- Observation: I have an action available "remove_source".
- Action: "remove_source"(['https://www.google.com', 'https://www.example.com'])

- User Input: read https://www.google.com, https://www.example.com
- Thought: I have to think step by step. I should not answer directly, let me check my available actions before responding.
- Observation: I have an action available "read_url".
- Action: "read_url"(['https://www.google.com','https://www.example.com'])
[END EXAMPLES]

思维链 (CoT) 和 ReAct 提示技术在这些示例中都发挥了作用。方法如下：

思想链（CoT）提示：

推理：在每个示例中，模型在响应之前都会使用内部推理。它不会直接回答用户输入，而是考虑所涉及的步骤：
- 识别可用操作（“answer_question”、“reset_messages”、“remove_source”、“read_url”）
- 根据用户输入选择适当的操作
- 执行所选操作
观察：模型在采取任何行动之前观察可用的行动。这使得它更加深思熟虑并避免犯错误。
操作：然后模型执行所选的操作，从而产生所需的结果。

反应提示：

推理与行动之间的协同作用：ReAct 建立在 CoT 的基础上，增加了与环境的进一步交互。这允许模型：
- 收集附加信息：在某些情况下，模型在采取行动之前可能需要来自环境的更多信息。例如，在“read_url”示例中，模型需要读取指定 URL 的内容，然后才能回答有关它们的任何问题。
- 更新行动计划：根据收集到的信息，模型可以修改其初始计划并相应地调整其行动。
- 实时做出决策：ReAct 允许模型与其环境交互并实时对变化做出反应。这使得它在复杂情况下更具适应性和多功能性。

总之，CoT 和 ReAct 在这些例子中都发挥着至关重要的作用。 CoT 使模型能够逐步推理并选择适当的操作，而 ReAct 通过允许模型与其环境交互并相应地更新其计划来扩展此功能。这种推理和行动的结合使大型语言模型更加灵活和通用，使它们能够处理更广泛的任务和情况。

演示版

让我们首先向我们的代理询问一个问题。在这种情况下， “什么是芒果？” 。首先发生的事情是，它将尝试使用向量嵌入相似性来“回忆”任何相关信息。然后，它将用它“召回”的内容制定响应，或者执行网络搜索。由于我们的知识库目前是空的，因此我们需要添加一些来源，然后才能制定响应。

演示 - 提出问题

由于机器人无法使用矢量数据库中的内容提供答案，因此它启动了 Google 搜索以查找相关信息。我们现在可以告诉它应该“学习”哪些来源。在本例中，我们将告诉它从搜索结果中了解前两个来源。

告诉机器人要学习哪些结果：

演示 - 添加源

改变 RAG 策略

接下来我们来修改RAG策略！让我们让它只使用一个源，并让它使用 500 个字符的小块。

演示 - 更改 RAG 策略第 1 部分

请注意，虽然它能够检索具有相当高相关性分数的块，但它无法生成响应，因为块大小太小并且块内容的相关性不足以制定响应。由于它无法生成小块的响应，因此它代表用户执行网络搜索。

让我们看看如果将块大小从 500 个字符增加到 3000 个字符会发生什么。

演示 - 更改 RAG 策略第 2 部分

现在，有了更大的块大小，它就能够使用矢量数据库中的知识准确地制定响应！

列出所有来源

让我们通过询问代理的知识库中可用的内容：您的知识库中有哪些来源？

DEMO - 列出所有来源

删除信息源

如果您想删除特定资源，您可以执行以下操作：

 USER: remove source 'https://www.oracle.com' from the knowledge base

要删除集合中的所有源 - 我们可以执行以下操作：

 USER: what sources do you have in your knowledge base?
AGENT: {response}
USER: remove all those sources please

演示 - 删除源

该演示让我们了解了人工智能代理的内部工作原理，展示了它以交互方式学习和响应用户查询的能力。我们亲眼目睹了它如何将内部知识库与实时网络搜索无缝结合起来，以提供全面而准确的信息。这项技术的潜力是巨大的，远远超出了简单的问答范畴。如果没有函数调用 API的魔力，这一切都是不可能的。

信用

这是受到 https://github.com/TengHu/Interactive-RAG 的启发

其他 MongoDB 资源

https://www.mongodb.com/developer/products/atlas/take-rag-to-production-documentation-ai-chatbot/
https://www.mongodb.com/basics/what-is-artificial-intelligence
https://www.mongodb.com/basics/vector-databases
https://www.mongodb.com/basics/semantic-search
https://www.mongodb.com/basics/machine-learning-healthcare
https://www.mongodb.com/basics/generative-ai
https://www.mongodb.com/basics/large-language-models
https://www.mongodb.com/basics/retrieval-augmented- Generation

补充阅读

https://blog.langchain.dev/openais-bet-on-a-cognitive-architecture/

贡献

我们欢迎开源社区的贡献。

执照

阿帕奇许可证 2.0

展开