首篇基于强化学习的Agentic Search最新综述！-人工智能技术与咨询

首篇基于强化学习的Agentic Search最新综述！

2025-11-21 17:27:44128浏览

源自：paperagent

首次对基于强化学习的智能体搜索（RL-based Agentic Search）进行了全面概述：基础、角色、优化、评估与应用

不同survey的对比

从"工具"到"决策者"的范式跃迁

传统RAG（检索增强生成）系统就像一个"图书馆借书机器人"——用户提问，它检索一次，生成答案，任务结束。但真实世界的复杂问题往往需要多轮推理、动态调整、策略规划。这正是Agentic Search的用武之地：

智能体搜索通过将LLM构建为一个自主决策的智能体，从而超越了RAG。模型不再是被动地使用检索到的文档，而是主动决定何时、何地以及如何搜索...

论文开篇就点明了核心痛点：LLM面临静态知识、幻觉问题，而传统RAG又是单次、启发式的。RL的引入让智能体能够通过试错自我改进，实现了从"被动检索"到"主动决策"的质变。

核心框架：RL赋能搜索的三维空间

论文提出了一个极具洞察力的分析框架，将RL在智能搜索中的作用解构为三个互补维度：

三维分析框架

这三大维度构成了我们理解这个领域的"黄金三角"：

What RL is for: RL的功能角色（决定何时搜、如何搜）
How RL is used: 优化策略（奖励设计、训练方法）
Where RL is applied: 优化范围（Agent级/模块级/系统级）

What - RL扮演什么角色？

这部分是整篇综述最精彩的内容。作者将RL的功能角色归纳为五大核心类别，并提供了详细的分类表：检索控制、查询优化、推理-检索融合、多智能体协作、工具知识整合

3.1 检索控制：让搜索变得"聪明"

传统RAG不管需不需要都会检索，而RL训练的智能体会自主判断：

Search-R1学会了只在内部知识不足时才调用搜索引擎
DeepRAG将复杂查询分解为原子子查询，逐个决策
IKEA引入知识边界感知奖励，鼓励优先使用内部知识

关键洞察是：搜索不是越多越好，而是在正确的时间做正确的搜索。

3.2 查询优化：会说才会搜

用户提问往往是模糊的，RL让智能体学会"翻译"：

ConvSearch-R1通过Rank-Incentive奖励，让改写后的查询能检索到更高排名的相关文档
DeepRetrieval训练LLM生成符合特定搜索引擎偏好的查询（就像"黑进"搜索引擎）

3.3 推理-检索融合：边想边搜，边搜边想

这是Agentic Search的核心优势——推理与检索的闭环：

AutoRefine奖励"搜索-思考-精炼"的迭代过程
ReSum训练智能体主动总结历史交互，避免上下文溢出

3.4 多智能体协作：分工的艺术

两种架构：

规划-执行架构：高层规划器协调专业执行器（查询重写、文档选择）
合作多智能体：各模块作为独立RL智能体，共享全局奖励

OPERA采用分级RL，为规划、分析、改写代理提供定制化奖励信号。

⚙️ 第二维：How - RL如何优化？

4.1 训练范式：从冷启动到自我进化

标准流程是：SFT冷启动 → RL微调。但创新点在于：

ZeroSearch完全放弃SFT，在潜在空间模拟检索，实现纯RL训练
AgentGym-RL通过课程学习逐步扩展交互时长，从短任务到多步推理
EvolveSearch开创自我进化循环：RL生成高质量轨迹 → 蒸馏为SFT数据 → 再RL训练

Search-R1的标准提示模板，要求模型先推理再搜索：

4.2 奖励设计：从结果到过程的精细化

奖励函数从单一到多维的演进：Outcome、Process

核心教训：有效代理需要平衡最终准确性与中间行为质量。

从强化学习优化策略视角看基于RL的智能体搜索概览。

第三维：Where - RL优化哪里？

将优化范围分为三级：Agent级、模块/步骤级、系统级

模块级优化的优势是无需重训大模型，如s3仅训练一个轻量搜索模块。而系统级框架如VerlTool提供统一接口，支持跨模态工具训练。

评估体系：如何衡量智能搜索？

6.1 数据集全景

列出了覆盖6大类的评估基准：

知识密集型QA: HotpotQA, 2WikiMultiHopQA（多跳推理）
网页搜索: GAIA, Mind2Web（真实浏览器环境）
多模态: InfoSeek, MM-BrowseComp（图文混合）
对话式: TopiOCQA, QReCC（多轮上下文）
领域专用: MATH, MedQA, OlympiadBench

6.2 评估指标

除了传统的EM/F1，Agentic Search需要新指标：

搜索效率：查询次数、API成本、响应时间
过程质量：信息增益、证据利用率、查询冗余度
多样性：O²-Searcher引入多样性奖励避免重复查询

🚀 应用实战：RLAgent正在改变这些领域

Deep Research: DeepResearcher, MedResearcher-R1实现自动化文献综述
多模态搜索: MMSearch-R1, WebWatcher融合视觉与文本理解
代码助手: Tool-Star协调搜索、执行、调试工具链
对话助手: ConvSearch-R1在多轮对话中保持上下文
企业搜索: HierSearch整合本地知识库与网页搜索

从强化学习优化策略视角看基于RL的智能体搜索概览。