2026年4月9日深度解析:合同助手AI搜索技术从RAG到智能体的演进路径
在AI技术飞速迭代的2026年,合同助手AI能力已成为衡量大模型应用成熟度的核心标尺。许多开发者在项目中接入联网时,往往直接调用API将结果“喂”给模型——能跑通,却难以应对复杂推理任务。模型要么返回与问题无关的内容,要么在多轮查询中彻底“迷失”。本文将从传统的局限性出发,深入剖析RAG(Retrieval-Augmented Generation,检索增强生成)的核心原理,进而揭示Agentic RAG与DeepSearch的技术演进路径,配合可运行的代码示例与高频面试题,帮助读者建立从“检索”到“推理”的完整知识链路。
一、痛点切入:为什么传统联网不够用?
传统实现方式
很多开发者的第一版联网是这样实现的:

def simple_web_search(query): 调用API获取前10条结果 results = search_api.search(query, num_results=10) 将所有结果拼接成纯文本 context = "\n".join([r['title'] + ": " + r['snippet'] for r in results]) 直接丢给LLM生成回答 response = llm.generate(f"基于以下信息回答问题:{context}\n问题:{query}") return response
三个致命缺陷
缺陷一:信息过载且缺乏筛选。 用户需要从10条摘要中自行筛选有效信息——某测试显示,用户平均需要浏览3.2个页面才能找到所需答案-1。对于复杂问题,这种方式效率极低。
缺陷二:无法处理多步推理。 当问题涉及多个维度时,单次检索往往只能覆盖部分信息。例如“2026年AI赛道有哪些新入局者?各自的技术特点是什么?”——需要分别各家产品信息,再对比分析。
缺陷三:缺乏自适应规划。 静态工具调用采用顺序执行模式,在多工具协同场景中错误传递率高达37%-24。模型不会根据中间结果调整后续策略,导致要么信息不足,要么完全偏离目标。
正是这些痛点,催生了从“”到“智能体”的技术跃迁。
二、核心概念讲解:RAG(检索增强生成)
标准定义
RAG(Retrieval-Augmented Generation,检索增强生成) 是一种将信息检索技术与生成式大语言模型相结合的框架-8。其核心思想是:在LLM生成回答之前,先从外部知识库中检索相关上下文信息,然后将这些信息与原始问题一并提供给LLM,从而“增强”其生成能力。
三个关键词拆解
检索(Retrieval) :从知识库中找“素材”。并非直接调用引擎,而是将文档切片后构建向量索引,通过相似度匹配找到最相关的片段。
增强(Augmented) :把“素材”拼进提示词。将检索到的片段插入用户问题的上下文,让LLM“带着参考材料作答”。
生成(Generation) :基于参考材料输出答案。LLM的任务不再是凭空“回忆”,而是“整理和转述”已有信息。
生活化类比
可以把RAG想象成开卷考试 vs 闭卷考试:
| 场景 | 闭卷考试(裸调LLM) | 开卷考试(RAG) |
|---|---|---|
| 知识来源 | 全靠“记忆” | 可随时翻阅参考书 |
| 遇到没学过的问题 | 开始“编” | 翻书找答案 |
| 答案可信度 | 不可追溯 | 可标注出处 |
RAG为什么是刚需?
LLM面临三个核心挑战,而RAG正是解决这些挑战的有效方案-8:
知识时效性问题:预训练LLM的知识截止于训练数据时间点(如GPT-4可能截止于2023年12月)。RAG通过动态检索外部知识源,提供“实时”知识补充。
私有数据访问问题:企业内部私有数据无法公开访问。RAG能安全连接这些数据源,仅提取相关信息供LLM使用。
幻觉问题:LLM有时会编造事实。RAG通过提供有据可查的参考文本,强制LLM基于事实回答,答案可追溯。
三、关联概念讲解:Agentic RAG 与 DeepSearch
Agentic RAG:让检索“会思考”
Agentic RAG 是在传统RAG基础上引入智能体自主决策能力的演进形态。通过利用函数调用和工具使用能力,系统能动态将查询路由到各种数据库、API和分析工具-。核心差异在于:
传统RAG:一次检索,一次生成。模型问什么,就搜什么,搜到什么就说什么。
Agentic RAG:多轮规划,按需检索。模型先“想清楚”需要哪些信息,分步去搜,再综合推理。
DeepSearch:即推理
DeepSearch(深度) 是Agentic RAG的高级形态,旨在回答需要跨多文档推理的复杂问题-。其技术突破在于展示过程的次级任务与思维路径,提供透明化的推理分析,特别适用于学术研究、市场战略制定等专业场景-。
典型执行流程-:
推理:根据模糊需求推导出具体的关键词
:获取初步信息
再推理:基于新信息发现缺口,修正方向
迭代:重复以上步骤,直至信息完备
四、概念关系总结
| 概念 | 一句话定位 | 关键特征 |
|---|---|---|
| RAG | “开卷考试”——给模型带参考书 | 单轮检索→单轮生成 |
| Agentic RAG | “会查资料的研究助理”——主动规划检索策略 | 多轮规划→按需检索→工具调用 |
| DeepSearch | “做调研的专家”——即推理 | 边想边搜→迭代修正→结论交付 |
一句话记住:RAG是“查一下再说”,Agentic RAG是“想好再查”,DeepSearch是“边想边查、越查越准”。
五、代码示例:从简单RAG到Agentic RAG
示例一:基础RAG实现
from sentence_transformers import SentenceTransformer import chromadb class SimpleRAG: def __init__(self, llm, collection_name="knowledge_base"): self.embedder = SentenceTransformer('BAAI/bge-small-zh') self.client = chromadb.Client() self.collection = self.client.get_or_create_collection(collection_name) self.llm = llm def index_documents(self, docs): 索引构建(离线阶段) embeddings = self.embedder.encode(docs) self.collection.add( embeddings=embeddings.tolist(), documents=docs, ids=[f"doc_{i}" for i in range(len(docs))] ) def query(self, question, top_k=3): 步骤1:将问题向量化 q_embedding = self.embedder.encode([question]) 步骤2:向量检索最相关文档 results = self.collection.query( query_embeddings=q_embedding.tolist(), n_results=top_k ) 步骤3:拼接上下文 context = "\n\n".join(results['documents'][0]) 步骤4:生成回答 prompt = f"""基于以下资料回答问题: 【参考资料】 {context} 【问题】{question} 【要求】如资料不足,明确说明。""" return self.llm.generate(prompt) 使用示例 rag = SimpleRAG(llm) rag.index_documents(["AI基于RAG架构...", "2026年向量检索技术突破..."]) answer = rag.query("RAG是什么?")
示例二:Agentic RAG(多步检索与推理)
class AgenticRAG: def __init__(self, llm, search_tools): self.llm = llm self.search_tools = search_tools 工具集 self.max_iterations = 5 最大迭代次数 def execute(self, question): context = [] sub_questions = [question] 初始待答问题列表 iteration = 0 while sub_questions and iteration < self.max_iterations: current_q = sub_questions.pop(0) 步骤1:判断是否需要新检索 if self._need_search(current_q, context): 步骤2:根据当前上下文细化词 refined_query = self._refine_query(current_q, context) 步骤3:执行检索 new_info = self.search_tools.search(refined_query) context.append({"query": refined_query, "result": new_info}) 步骤4:尝试生成部分答案,识别信息缺口 partial_answer = self._try_answer(current_q, context) if self._has_gaps(partial_answer): 发现缺口,生成新的子查询 new_sub_qs = self._identify_gaps(partial_answer, current_q) sub_questions.extend(new_sub_qs) iteration += 1 综合所有信息生成最终答案 return self._final_answer(question, context) def _need_search(self, question, context): """判断当前上下文是否足以回答问题""" 实际实现中通过调用LLM判断 pass
Agentic RAG的核心价值在于边边思考:传统RAG是一次检索对应一次生成;Agentic RAG会根据已有发现动态调整后续方向,直至获得完备信息。
六、底层原理与技术支撑
RAG的底层技术栈
| 技术层 | 核心技术 | 作用 |
|---|---|---|
| 语义解析 | BERT等预训练模型 | 将自然语言转换为高维向量-2 |
| 向量检索 | ANN(近似最近邻)算法 | 毫秒级响应,支持十亿级数据规模 |
| 上下文增强 | 注意力机制 | 对检索结果动态加权,过滤低相关性片段 |
| 硬件加速 | 混合精度量化、异构计算 | 内存占用降低75%,延迟降至50ms以内-2 |
Agentic的底层依赖
Agentic RAG和DeepSearch的技术突破,本质上依赖两大底层能力:
LLM的工具调用(Tool Use)能力:模型必须能够理解工具描述、生成符合参数规范的调用指令。工具函数包含三要素——执行逻辑、元数据描述、参数约束-24。
推理与规划能力:模型需具备任务拆解、依赖分析和路径优化能力。以Manus为例,其PEV三层架构(规划→执行→验证)将模糊的自然语言指令拆解为原子级子任务,建立依赖关系后选择最优执行路径-13。
更前沿的进展来自上下文工程领域:Manus团队将KV缓存命中率定义为生产阶段AI Agent最重要的性能指标。在典型Agent循环中,输入token与输出token比例高达100:1,KV缓存复用可将首token时间与推理成本降低约90%-9。
七、高频面试题与参考答案
Q1:RAG和传统引擎有什么区别?
参考答案(踩分点:技术原理对比):
核心区别在于输出形式和信息处理深度:
传统引擎基于倒排索引的“关键词匹配→返回链接列表”,用户需自行筛选信息(平均浏览3.2个页面才能找到答案)。
RAG采用“语义理解→向量检索→生成回答”,LLM直接提取关键信息生成结构化答案,将信息获取效率提升60%以上-1。
适用场景差异:传统适合“我知道要找什么”的确知型查询;RAG适合“我需要理解什么”的探索型查询。
Q2:RAG的三个核心优势是什么?
参考答案(踩分点:问题导向,分类清晰):
解决知识时效性:突破模型训练数据截止日期限制,通过实时检索获取最新信息-8
打通私有数据访问:安全连接企业内部知识库,在不泄露全部数据的前提下实现企业级智能应用-8
降低模型幻觉:通过提供有据可查的参考文本,强制LLM基于事实回答,答案可追溯-8
Q3:RAG的主要局限性有哪些?
参考答案:
检索质量依赖向量索引:知识库构建时文档切片粒度、向量模型选择直接影响检索效果
上下文长度限制:LLM上下文窗口有限,检索过多内容可能超出限制或稀释关键信息
多跳推理困难:传统RAG难以处理需要“查A→基于A查B”的多步推理问题——这正是Agentic RAG要解决的问题
Q4:什么是DeepSearch?它和Agentic RAG什么关系?
参考答案:
DeepSearch是一种基于多智能体架构的深度能力,专为回答需要跨多文档推理的复杂问题而设计-。
与Agentic RAG的关系:Agentic RAG是技术范式(让检索具备自主决策能力),DeepSearch是这种范式的高级应用形态。Agentic RAG侧重“如何检索”,DeepSearch侧重“用检索来推理”——通过展示过程的次级任务与思维路径,实现透明化的推理分析-。
Q5:向量检索为什么要用ANN而不是精确?
参考答案(踩分点:性能与规模的权衡):
在高维向量空间中,精确的KNN(K近邻)的时间复杂度为O(n·d),在十亿级数据规模下无法满足毫秒级响应需求。ANN(近似最近邻)算法通过牺牲少量精度换取数量级的性能提升,典型实现包括HNSW(分层可导航小世界图)、IVF(倒排文件索引)等。在实际应用中,ANN可在召回率保持98%以上的前提下,将查询延迟从秒级压缩至50ms以内-2。
八、结尾总结
本文围绕合同助手AI技术,梳理了从RAG到Agentic RAG再到DeepSearch的完整演进脉络:
RAG是基石:通过检索+生成解决了LLM的时效性和幻觉问题
Agentic RAG是进化:引入自主规划与多步检索,从“查一次”升级为“边想边查”
DeepSearch是高级形态:将本身转化为推理过程,适用于复杂研究场景
重点提示:面试中常考“RAG和的区别”“DeepSearch是什么”,理解三个概念的递进关系是关键。当前行业趋势正从RAG向Agentic演进,建议读者关注Manus、Tabbit等产品的最新动态-43。
下篇预告:我们将深入向量检索的底层实现——从倒排索引到HNSW图算法,用代码演示如何构建一个工业级向量引擎。
📌 本文技术数据截至2026年4月,文中引用案例与数据均来源于公开技术文档与行业报告。