2026年4月9日深度解析:合同助手AI搜索技术从RAG到智能体的演进路径

在AI技术飞速迭代的2026年,合同助手AI能力已成为衡量大模型应用成熟度的核心标尺。许多开发者在项目中接入联网时,往往直接调用API将结果“喂”给模型——能跑通,却难以应对复杂推理任务。模型要么返回与问题无关的内容,要么在多轮查询中彻底“迷失”。本文将从传统的局限性出发,深入剖析RAG(Retrieval-Augmented Generation,检索增强生成)的核心原理,进而揭示Agentic RAG与DeepSearch的技术演进路径,配合可运行的代码示例与高频面试题,帮助读者建立从“检索”到“推理”的完整知识链路。

一、痛点切入:为什么传统联网不够用?

传统实现方式

很多开发者的第一版联网是这样实现的:

python
复制
下载
def simple_web_search(query):
     调用API获取前10条结果
    results = search_api.search(query, num_results=10)
     将所有结果拼接成纯文本
    context = "\n".join([r['title'] + ": " + r['snippet'] for r in results])
     直接丢给LLM生成回答
    response = llm.generate(f"基于以下信息回答问题:{context}\n问题:{query}")
    return response

三个致命缺陷

缺陷一:信息过载且缺乏筛选。 用户需要从10条摘要中自行筛选有效信息——某测试显示,用户平均需要浏览3.2个页面才能找到所需答案-1。对于复杂问题,这种方式效率极低。

缺陷二:无法处理多步推理。 当问题涉及多个维度时,单次检索往往只能覆盖部分信息。例如“2026年AI赛道有哪些新入局者?各自的技术特点是什么?”——需要分别各家产品信息,再对比分析。

缺陷三:缺乏自适应规划。 静态工具调用采用顺序执行模式,在多工具协同场景中错误传递率高达37%-24。模型不会根据中间结果调整后续策略,导致要么信息不足,要么完全偏离目标。

正是这些痛点,催生了从“”到“智能体”的技术跃迁。

二、核心概念讲解:RAG(检索增强生成)

标准定义

RAG(Retrieval-Augmented Generation,检索增强生成) 是一种将信息检索技术与生成式大语言模型相结合的框架-8。其核心思想是:在LLM生成回答之前,先从外部知识库中检索相关上下文信息,然后将这些信息与原始问题一并提供给LLM,从而“增强”其生成能力。

三个关键词拆解

  • 检索(Retrieval) :从知识库中找“素材”。并非直接调用引擎,而是将文档切片后构建向量索引,通过相似度匹配找到最相关的片段。

  • 增强(Augmented) :把“素材”拼进提示词。将检索到的片段插入用户问题的上下文,让LLM“带着参考材料作答”。

  • 生成(Generation) :基于参考材料输出答案。LLM的任务不再是凭空“回忆”,而是“整理和转述”已有信息。

生活化类比

可以把RAG想象成开卷考试 vs 闭卷考试

场景闭卷考试(裸调LLM)开卷考试(RAG)
知识来源全靠“记忆”可随时翻阅参考书
遇到没学过的问题开始“编”翻书找答案
答案可信度不可追溯可标注出处

RAG为什么是刚需?

LLM面临三个核心挑战,而RAG正是解决这些挑战的有效方案-8

  1. 知识时效性问题:预训练LLM的知识截止于训练数据时间点(如GPT-4可能截止于2023年12月)。RAG通过动态检索外部知识源,提供“实时”知识补充。

  2. 私有数据访问问题:企业内部私有数据无法公开访问。RAG能安全连接这些数据源,仅提取相关信息供LLM使用。

  3. 幻觉问题:LLM有时会编造事实。RAG通过提供有据可查的参考文本,强制LLM基于事实回答,答案可追溯。

三、关联概念讲解:Agentic RAG 与 DeepSearch

Agentic RAG:让检索“会思考”

Agentic RAG 是在传统RAG基础上引入智能体自主决策能力的演进形态。通过利用函数调用和工具使用能力,系统能动态将查询路由到各种数据库、API和分析工具-。核心差异在于:

  • 传统RAG:一次检索,一次生成。模型问什么,就搜什么,搜到什么就说什么。

  • Agentic RAG:多轮规划,按需检索。模型先“想清楚”需要哪些信息,分步去搜,再综合推理。

DeepSearch:即推理

DeepSearch(深度) 是Agentic RAG的高级形态,旨在回答需要跨多文档推理的复杂问题-。其技术突破在于展示过程的次级任务与思维路径,提供透明化的推理分析,特别适用于学术研究、市场战略制定等专业场景-

典型执行流程-

  1. 推理:根据模糊需求推导出具体的关键词

  2. :获取初步信息

  3. 再推理:基于新信息发现缺口,修正方向

  4. 迭代:重复以上步骤,直至信息完备

四、概念关系总结

概念一句话定位关键特征
RAG“开卷考试”——给模型带参考书单轮检索→单轮生成
Agentic RAG“会查资料的研究助理”——主动规划检索策略多轮规划→按需检索→工具调用
DeepSearch“做调研的专家”——即推理边想边搜→迭代修正→结论交付

一句话记住:RAG是“查一下再说”,Agentic RAG是“想好再查”,DeepSearch是“边想边查、越查越准”。

五、代码示例:从简单RAG到Agentic RAG

示例一:基础RAG实现

python
复制
下载
from sentence_transformers import SentenceTransformer
import chromadb

class SimpleRAG:
    def __init__(self, llm, collection_name="knowledge_base"):
        self.embedder = SentenceTransformer('BAAI/bge-small-zh')
        self.client = chromadb.Client()
        self.collection = self.client.get_or_create_collection(collection_name)
        self.llm = llm
    
    def index_documents(self, docs):     索引构建(离线阶段)
        embeddings = self.embedder.encode(docs)
        self.collection.add(
            embeddings=embeddings.tolist(),
            documents=docs,
            ids=[f"doc_{i}" for i in range(len(docs))]
        )
    
    def query(self, question, top_k=3):
         步骤1:将问题向量化
        q_embedding = self.embedder.encode([question])
         步骤2:向量检索最相关文档
        results = self.collection.query(
            query_embeddings=q_embedding.tolist(),
            n_results=top_k
        )
         步骤3:拼接上下文
        context = "\n\n".join(results['documents'][0])
         步骤4:生成回答
        prompt = f"""基于以下资料回答问题:
        【参考资料】
        {context}
        【问题】{question}
        【要求】如资料不足,明确说明。"""
        return self.llm.generate(prompt)

 使用示例
rag = SimpleRAG(llm)
rag.index_documents(["AI基于RAG架构...", "2026年向量检索技术突破..."])
answer = rag.query("RAG是什么?")

示例二:Agentic RAG(多步检索与推理)

python
复制
下载
class AgenticRAG:
    def __init__(self, llm, search_tools):
        self.llm = llm
        self.search_tools = search_tools         工具集
        self.max_iterations = 5                  最大迭代次数
    
    def execute(self, question):
        context = []
        sub_questions = [question]               初始待答问题列表
        iteration = 0
        
        while sub_questions and iteration < self.max_iterations:
            current_q = sub_questions.pop(0)
             步骤1:判断是否需要新检索
            if self._need_search(current_q, context):
                 步骤2:根据当前上下文细化词
                refined_query = self._refine_query(current_q, context)
                 步骤3:执行检索
                new_info = self.search_tools.search(refined_query)
                context.append({"query": refined_query, "result": new_info})
            
             步骤4:尝试生成部分答案,识别信息缺口
            partial_answer = self._try_answer(current_q, context)
            if self._has_gaps(partial_answer):
                 发现缺口,生成新的子查询
                new_sub_qs = self._identify_gaps(partial_answer, current_q)
                sub_questions.extend(new_sub_qs)
            
            iteration += 1
        
         综合所有信息生成最终答案
        return self._final_answer(question, context)
    
    def _need_search(self, question, context):
        """判断当前上下文是否足以回答问题"""
         实际实现中通过调用LLM判断
        pass

Agentic RAG的核心价值在于边边思考:传统RAG是一次检索对应一次生成;Agentic RAG会根据已有发现动态调整后续方向,直至获得完备信息。

六、底层原理与技术支撑

RAG的底层技术栈

技术层核心技术作用
语义解析BERT等预训练模型将自然语言转换为高维向量-2
向量检索ANN(近似最近邻)算法毫秒级响应,支持十亿级数据规模
上下文增强注意力机制对检索结果动态加权,过滤低相关性片段
硬件加速混合精度量化、异构计算内存占用降低75%,延迟降至50ms以内-2

Agentic的底层依赖

Agentic RAG和DeepSearch的技术突破,本质上依赖两大底层能力:

  1. LLM的工具调用(Tool Use)能力:模型必须能够理解工具描述、生成符合参数规范的调用指令。工具函数包含三要素——执行逻辑、元数据描述、参数约束-24

  2. 推理与规划能力:模型需具备任务拆解、依赖分析和路径优化能力。以Manus为例,其PEV三层架构(规划→执行→验证)将模糊的自然语言指令拆解为原子级子任务,建立依赖关系后选择最优执行路径-13

更前沿的进展来自上下文工程领域:Manus团队将KV缓存命中率定义为生产阶段AI Agent最重要的性能指标。在典型Agent循环中,输入token与输出token比例高达100:1,KV缓存复用可将首token时间与推理成本降低约90%-9

七、高频面试题与参考答案

Q1:RAG和传统引擎有什么区别?

参考答案(踩分点:技术原理对比):

核心区别在于输出形式和信息处理深度

  • 传统引擎基于倒排索引的“关键词匹配→返回链接列表”,用户需自行筛选信息(平均浏览3.2个页面才能找到答案)。

  • RAG采用“语义理解→向量检索→生成回答”,LLM直接提取关键信息生成结构化答案,将信息获取效率提升60%以上-1

  • 适用场景差异:传统适合“我知道要找什么”的确知型查询;RAG适合“我需要理解什么”的探索型查询。

Q2:RAG的三个核心优势是什么?

参考答案(踩分点:问题导向,分类清晰):

  1. 解决知识时效性:突破模型训练数据截止日期限制,通过实时检索获取最新信息-8

  2. 打通私有数据访问:安全连接企业内部知识库,在不泄露全部数据的前提下实现企业级智能应用-8

  3. 降低模型幻觉:通过提供有据可查的参考文本,强制LLM基于事实回答,答案可追溯-8

Q3:RAG的主要局限性有哪些?

参考答案:

  • 检索质量依赖向量索引:知识库构建时文档切片粒度、向量模型选择直接影响检索效果

  • 上下文长度限制:LLM上下文窗口有限,检索过多内容可能超出限制或稀释关键信息

  • 多跳推理困难:传统RAG难以处理需要“查A→基于A查B”的多步推理问题——这正是Agentic RAG要解决的问题

Q4:什么是DeepSearch?它和Agentic RAG什么关系?

参考答案:

DeepSearch是一种基于多智能体架构的深度能力,专为回答需要跨多文档推理的复杂问题而设计-

与Agentic RAG的关系:Agentic RAG是技术范式(让检索具备自主决策能力),DeepSearch是这种范式的高级应用形态。Agentic RAG侧重“如何检索”,DeepSearch侧重“用检索来推理”——通过展示过程的次级任务与思维路径,实现透明化的推理分析-

Q5:向量检索为什么要用ANN而不是精确?

参考答案(踩分点:性能与规模的权衡):

在高维向量空间中,精确的KNN(K近邻)的时间复杂度为O(n·d),在十亿级数据规模下无法满足毫秒级响应需求。ANN(近似最近邻)算法通过牺牲少量精度换取数量级的性能提升,典型实现包括HNSW(分层可导航小世界图)、IVF(倒排文件索引)等。在实际应用中,ANN可在召回率保持98%以上的前提下,将查询延迟从秒级压缩至50ms以内-2

八、结尾总结

本文围绕合同助手AI技术,梳理了从RAG到Agentic RAG再到DeepSearch的完整演进脉络:

  • RAG是基石:通过检索+生成解决了LLM的时效性和幻觉问题

  • Agentic RAG是进化:引入自主规划与多步检索,从“查一次”升级为“边想边查”

  • DeepSearch是高级形态:将本身转化为推理过程,适用于复杂研究场景

重点提示:面试中常考“RAG和的区别”“DeepSearch是什么”,理解三个概念的递进关系是关键。当前行业趋势正从RAG向Agentic演进,建议读者关注Manus、Tabbit等产品的最新动态-43

下篇预告:我们将深入向量检索的底层实现——从倒排索引到HNSW图算法,用代码演示如何构建一个工业级向量引擎。

📌 本文技术数据截至2026年4月,文中引用案例与数据均来源于公开技术文档与行业报告。