小编

2026年04月20日 21:57

2026年4月9日深度解析：合同助手AI搜索技术从RAG到智能体的演进路径

在AI技术飞速迭代的2026年，合同助手AI能力已成为衡量大模型应用成熟度的核心标尺。许多开发者在项目中接入联网时，往往直接调用API将结果“喂”给模型——能跑通，却难以应对复杂推理任务。模型要么返回与问题无关的内容，要么在多轮查询中彻底“迷失”。本文将从传统的局限性出发，深入剖析RAG（Retrieval-Augmented Generation，检索增强生成）的核心原理，进而揭示Agentic RAG与DeepSearch的技术演进路径，配合可运行的代码示例与高频面试题，帮助读者建立从“检索”到“推理”的完整知识链路。

一、痛点切入：为什么传统联网不够用？

传统实现方式

很多开发者的第一版联网是这样实现的：

def simple_web_search(query):
     调用API获取前10条结果
    results = search_api.search(query, num_results=10)
     将所有结果拼接成纯文本
    context = "\n".join([r['title'] + ": " + r['snippet'] for r in results])
     直接丢给LLM生成回答
    response = llm.generate(f"基于以下信息回答问题：{context}\n问题：{query}")
    return response

三个致命缺陷

缺陷一：信息过载且缺乏筛选。 用户需要从10条摘要中自行筛选有效信息——某测试显示，用户平均需要浏览3.2个页面才能找到所需答案-1。对于复杂问题，这种方式效率极低。

缺陷二：无法处理多步推理。 当问题涉及多个维度时，单次检索往往只能覆盖部分信息。例如“2026年AI赛道有哪些新入局者？各自的技术特点是什么？”——需要分别各家产品信息，再对比分析。

缺陷三：缺乏自适应规划。 静态工具调用采用顺序执行模式，在多工具协同场景中错误传递率高达37%-24。模型不会根据中间结果调整后续策略，导致要么信息不足，要么完全偏离目标。

正是这些痛点，催生了从“”到“智能体”的技术跃迁。

二、核心概念讲解：RAG（检索增强生成）

标准定义

RAG（Retrieval-Augmented Generation，检索增强生成） 是一种将信息检索技术与生成式大语言模型相结合的框架-8。其核心思想是：在LLM生成回答之前，先从外部知识库中检索相关上下文信息，然后将这些信息与原始问题一并提供给LLM，从而“增强”其生成能力。

三个关键词拆解

检索（Retrieval） ：从知识库中找“素材”。并非直接调用引擎，而是将文档切片后构建向量索引，通过相似度匹配找到最相关的片段。
增强（Augmented） ：把“素材”拼进提示词。将检索到的片段插入用户问题的上下文，让LLM“带着参考材料作答”。
生成（Generation） ：基于参考材料输出答案。LLM的任务不再是凭空“回忆”，而是“整理和转述”已有信息。

生活化类比

可以把RAG想象成开卷考试 vs 闭卷考试：

场景	闭卷考试（裸调LLM）	开卷考试（RAG）
知识来源	全靠“记忆”	可随时翻阅参考书
遇到没学过的问题	开始“编”	翻书找答案
答案可信度	不可追溯	可标注出处

RAG为什么是刚需？

LLM面临三个核心挑战，而RAG正是解决这些挑战的有效方案-8：

知识时效性问题：预训练LLM的知识截止于训练数据时间点（如GPT-4可能截止于2023年12月）。RAG通过动态检索外部知识源，提供“实时”知识补充。
私有数据访问问题：企业内部私有数据无法公开访问。RAG能安全连接这些数据源，仅提取相关信息供LLM使用。
幻觉问题：LLM有时会编造事实。RAG通过提供有据可查的参考文本，强制LLM基于事实回答，答案可追溯。

三、关联概念讲解：Agentic RAG 与 DeepSearch

Agentic RAG：让检索“会思考”

Agentic RAG 是在传统RAG基础上引入智能体自主决策能力的演进形态。通过利用函数调用和工具使用能力，系统能动态将查询路由到各种数据库、API和分析工具-。核心差异在于：

传统RAG：一次检索，一次生成。模型问什么，就搜什么，搜到什么就说什么。
Agentic RAG：多轮规划，按需检索。模型先“想清楚”需要哪些信息，分步去搜，再综合推理。

DeepSearch：即推理

DeepSearch（深度） 是Agentic RAG的高级形态，旨在回答需要跨多文档推理的复杂问题-。其技术突破在于展示过程的次级任务与思维路径，提供透明化的推理分析，特别适用于学术研究、市场战略制定等专业场景-。

典型执行流程-：

推理：根据模糊需求推导出具体的关键词
：获取初步信息
再推理：基于新信息发现缺口，修正方向
迭代：重复以上步骤，直至信息完备

四、概念关系总结

概念	一句话定位	关键特征
RAG	“开卷考试”——给模型带参考书	单轮检索→单轮生成
Agentic RAG	“会查资料的研究助理”——主动规划检索策略	多轮规划→按需检索→工具调用
DeepSearch	“做调研的专家”——即推理	边想边搜→迭代修正→结论交付

一句话记住：RAG是“查一下再说”，Agentic RAG是“想好再查”，DeepSearch是“边想边查、越查越准”。

五、代码示例：从简单RAG到Agentic RAG

示例一：基础RAG实现

from sentence_transformers import SentenceTransformer
import chromadb

class SimpleRAG:
    def __init__(self, llm, collection_name="knowledge_base"):
        self.embedder = SentenceTransformer('BAAI/bge-small-zh')
        self.client = chromadb.Client()
        self.collection = self.client.get_or_create_collection(collection_name)
        self.llm = llm
    
    def index_documents(self, docs):     索引构建（离线阶段）
        embeddings = self.embedder.encode(docs)
        self.collection.add(
            embeddings=embeddings.tolist(),
            documents=docs,
            ids=[f"doc_{i}" for i in range(len(docs))]
        )
    
    def query(self, question, top_k=3):
         步骤1：将问题向量化
        q_embedding = self.embedder.encode([question])
         步骤2：向量检索最相关文档
        results = self.collection.query(
            query_embeddings=q_embedding.tolist(),
            n_results=top_k
        )
         步骤3：拼接上下文
        context = "\n\n".join(results['documents'][0])
         步骤4：生成回答
        prompt = f"""基于以下资料回答问题：
        【参考资料】
        {context}
        【问题】{question}
        【要求】如资料不足，明确说明。"""
        return self.llm.generate(prompt)

 使用示例
rag = SimpleRAG(llm)
rag.index_documents(["AI基于RAG架构...", "2026年向量检索技术突破..."])
answer = rag.query("RAG是什么？")

示例二：Agentic RAG（多步检索与推理）

class AgenticRAG:
    def __init__(self, llm, search_tools):
        self.llm = llm
        self.search_tools = search_tools         工具集
        self.max_iterations = 5                  最大迭代次数
    
    def execute(self, question):
        context = []
        sub_questions = [question]               初始待答问题列表
        iteration = 0
        
        while sub_questions and iteration < self.max_iterations:
            current_q = sub_questions.pop(0)
             步骤1：判断是否需要新检索
            if self._need_search(current_q, context):
                 步骤2：根据当前上下文细化词
                refined_query = self._refine_query(current_q, context)
                 步骤3：执行检索
                new_info = self.search_tools.search(refined_query)
                context.append({"query": refined_query, "result": new_info})
            
             步骤4：尝试生成部分答案，识别信息缺口
            partial_answer = self._try_answer(current_q, context)
            if self._has_gaps(partial_answer):
                 发现缺口，生成新的子查询
                new_sub_qs = self._identify_gaps(partial_answer, current_q)
                sub_questions.extend(new_sub_qs)
            
            iteration += 1
        
         综合所有信息生成最终答案
        return self._final_answer(question, context)
    
    def _need_search(self, question, context):
        """判断当前上下文是否足以回答问题"""
         实际实现中通过调用LLM判断
        pass

Agentic RAG的核心价值在于边边思考：传统RAG是一次检索对应一次生成；Agentic RAG会根据已有发现动态调整后续方向，直至获得完备信息。

六、底层原理与技术支撑

RAG的底层技术栈

技术层	核心技术	作用
语义解析	BERT等预训练模型	将自然语言转换为高维向量-2
向量检索	ANN（近似最近邻）算法	毫秒级响应，支持十亿级数据规模
上下文增强	注意力机制	对检索结果动态加权，过滤低相关性片段
硬件加速	混合精度量化、异构计算	内存占用降低75%，延迟降至50ms以内-2

Agentic的底层依赖

Agentic RAG和DeepSearch的技术突破，本质上依赖两大底层能力：

LLM的工具调用（Tool Use）能力：模型必须能够理解工具描述、生成符合参数规范的调用指令。工具函数包含三要素——执行逻辑、元数据描述、参数约束-24。
推理与规划能力：模型需具备任务拆解、依赖分析和路径优化能力。以Manus为例，其PEV三层架构（规划→执行→验证）将模糊的自然语言指令拆解为原子级子任务，建立依赖关系后选择最优执行路径-13。

更前沿的进展来自上下文工程领域：Manus团队将KV缓存命中率定义为生产阶段AI Agent最重要的性能指标。在典型Agent循环中，输入token与输出token比例高达100:1，KV缓存复用可将首token时间与推理成本降低约90%-9。

七、高频面试题与参考答案

Q1：RAG和传统引擎有什么区别？

参考答案（踩分点：技术原理对比）：

核心区别在于输出形式和信息处理深度：

传统引擎基于倒排索引的“关键词匹配→返回链接列表”，用户需自行筛选信息（平均浏览3.2个页面才能找到答案）。
RAG采用“语义理解→向量检索→生成回答”，LLM直接提取关键信息生成结构化答案，将信息获取效率提升60%以上-1。
适用场景差异：传统适合“我知道要找什么”的确知型查询；RAG适合“我需要理解什么”的探索型查询。

Q2：RAG的三个核心优势是什么？

参考答案（踩分点：问题导向，分类清晰）：

解决知识时效性：突破模型训练数据截止日期限制，通过实时检索获取最新信息-8
打通私有数据访问：安全连接企业内部知识库，在不泄露全部数据的前提下实现企业级智能应用-8
降低模型幻觉：通过提供有据可查的参考文本，强制LLM基于事实回答，答案可追溯-8

Q3：RAG的主要局限性有哪些？

参考答案：

检索质量依赖向量索引：知识库构建时文档切片粒度、向量模型选择直接影响检索效果
上下文长度限制：LLM上下文窗口有限，检索过多内容可能超出限制或稀释关键信息
多跳推理困难：传统RAG难以处理需要“查A→基于A查B”的多步推理问题——这正是Agentic RAG要解决的问题

Q4：什么是DeepSearch？它和Agentic RAG什么关系？

参考答案：

DeepSearch是一种基于多智能体架构的深度能力，专为回答需要跨多文档推理的复杂问题而设计-。

与Agentic RAG的关系：Agentic RAG是技术范式（让检索具备自主决策能力），DeepSearch是这种范式的高级应用形态。Agentic RAG侧重“如何检索”，DeepSearch侧重“用检索来推理”——通过展示过程的次级任务与思维路径，实现透明化的推理分析-。

Q5：向量检索为什么要用ANN而不是精确？

参考答案（踩分点：性能与规模的权衡）：

在高维向量空间中，精确的KNN（K近邻）的时间复杂度为O(n·d)，在十亿级数据规模下无法满足毫秒级响应需求。ANN（近似最近邻）算法通过牺牲少量精度换取数量级的性能提升，典型实现包括HNSW（分层可导航小世界图）、IVF（倒排文件索引）等。在实际应用中，ANN可在召回率保持98%以上的前提下，将查询延迟从秒级压缩至50ms以内-2。