[{"content":"Agentic RL 的本质：从\u0026quot;给模型接工具\u0026quot;到\u0026quot;给模型放进环境\u0026quot; 把多轮工具调用回归到第一性原理 问题定位：方向的名字和方向要解决的问题不是同一件事 multi-turn tool call 已经是 2025–2026 年最拥挤的研究区域之一，但\u0026quot;多轮\u0026quot;和\u0026quot;工具\u0026quot;两个词的组合本身并没有定义一个问题——它只描述了一种形式。Search-R1 在多轮检索上做 RL，ReTool 在代码工具上做 RL，ToolRL、ARTIST、ReCall 各自在不同工具链上刷榜，形式上都符合 multi-turn tool call 的描述，但这些工作解决的是同一个问题还是不同问题？如果是同一个，为什么 benchmark 互不兼容？如果是不同的，那 agentic RL 作为一个统一的研究方向，其真正的本质问题是？\n\u0026ldquo;multi-turn tool call 到底解决什么\u0026quot;这个问题如果回答不了，后续所有方法论层面的选择——reward 怎么设计、credit 怎么 assign、benchmark 怎么造——都会悬空。\n三个范式的信息闭环对比 讨论 agentic RL 的本质之前，先把它和上游的两个范式画在同一张对比表里。核心维度不是\u0026quot;用不用工具\u0026quot;或\u0026quot;几轮对话\u0026rdquo;，而是信息闭环的形状。\n范式 代表工作 信息闭环 环境性质 从权重拿不到什么 Pure CoT / RLM DeepSeek-R1 x → think → y 无外部 — Single-turn tool Toolformer x → call → y 只读、幂等 确定性事实 Verifiable multi-turn Search-R1 / ReTool (think→call→info)×N → y 无状态、可逆 外部知识 Agentic RL 尚未收敛 含规划、追问、不可逆 action 的 MDP 有状态、部分可逆 policy 本身 前三行之间的 delta 是递增的知识接入量，但第四行与前面的 delta 不是量变而是质变。前三行共享一个隐含假设——环境是无状态、幂等、只读的外部数据库；agent 所要做的全部事情是\u0026quot;检索对的东西、组合到答案里\u0026quot;。\n核心论点：RLM 解决推理，Tool-use 解决知识接入，Agentic RL 解决的是「在 stateful environment 里做 long-horizon sequential decision 且 action 有不可逆后果」的问题。 Agentic RL 与 verifiable multi-turn 的分界线，可以用一个具体例子锁死。任务\u0026quot;帮我订下周去东京、避开樱花季尾声、符合差旅预算的机票\u0026quot;在 Search-R1 框架下不可解，原因不是工具种类不够，而是四条结构性差异：\n维度 Search-R1 世界观 Agentic RL 世界观 约束结构 平铺，可并列检索 有偏序：日期 \u0026gt; 预算 \u0026gt; 航司 信息来源 只读外部 API 外部 + 需向人类追问 动作效应 幂等，不改变未来 改变未来可行动作空间 可逆性 全可逆 含不可逆动作（支付、发送） 四条里任何一条被打破，Search-R1 的方法都不够用。把这四条翻译成经典 RL 的术语：agentic RL 的本质是在高维、部分可观测、有约束偏序结构、存在不可逆动作的状态空间里做 sequential decision making。verifiable multi-turn 只是这个大问题在\u0026quot;环境无状态、动作可逆、reward 可验证\u0026quot;三个假设同时成立时的退化特例。\n这个重新定位的直接推论是：multi-turn tool call 这个形式不是问题的定义，stateful decision 才是。把工具数量从 1 个加到 10 个、把对话轮数从 3 轮加到 20 轮，都没有推进本质问题一步；改变环境的状态性、引入不可逆性、构造偏序约束，才是在推进。\n串行 vs 并行：一个被忽视的结构学习问题 multi-turn tool call 的\u0026quot;轮\u0026quot;本身也没有被严肃分析过。定义每次 tool call 获得一个随机变量 Y_i，最终推断目标 T，两种调用模式的信息结构如下：\n并行调用的信息量是边际独立贡献的累加：\n$$I(T; Y_1, Y_2, Y_3) = \\sum_i I(T; Y_i \\mid Y_{\u0026lt;i})$$\n但并行决策在调用前就被锁定，每个 Y_i 的分布不依赖其他 Y_j 的实际取值。\n串行调用的本质是：第 k 步的 action a_k 本身是 Y_1,\u0026hellip;,Y_{k-1} 取值的函数。\n判据可以精确写成一句话：当 a_k 的最优选择依赖于 Y_\u0026lt;k 的实际取值而非仅仅其存在性时，必须串行。\u0026ldquo;查北京天气 + 查上海天气\u0026quot;应当并行；\u0026ldquo;先查用户位置 → 再查当地天气\u0026quot;必须串行，因为第二次调用的参数本身是第一次调用的值。\n维度 并行 串行 信息量上限 调用前就定 动态依赖前序结果 可否聚焦 不能 能 类比 一次性问卷 医生问诊 信息论本质 边际互信息和 条件互信息链 这里隐藏着一个 paper-worthy 的研究缺口：当前所有 GRPO-style 的 multi-turn RL 都定义在 token 序列上，loss 和 reward 都沿着一个线性时间轴传播。token 生成的线性结构天然偏置 policy 学成纯串行，要让模型输出并行 DAG，必须在动作空间或 loss 结构上显式建模拓扑。目前主流 benchmark（HotpotQA、Musique、ToolBench）全部在串行范式下评测，并行 tool use 的 RL 训练几乎空白——这不是因为问题不重要，而是因为 benchmark 不考，方法就没人做。\n为什么这里必须是 RL 而不是 SFT SFT 在工具使用上能走多远的问题，2024–2026 学术圈存在真实争论。一派认为 RL 只是把 pass@k 放大为 pass@1（Yue et al. 2025），一派认为 RL 能产生 SFT 无法达到的泛化。两派各有证据，区分它们的关键是任务结构。\n在可验证 + reward 密集的窄域（math、code、EM-scored QA），证据倾向于第一派：TinyZero 在 Qwen2.5-3B + Countdown 上涌现的是推理格式（多方案枚举、自验证、自修正）和枚举习惯，不是算术能力本身；response length 先塌到 100 再回升到 400+ 的 U 型曲线，是模型在\u0026quot;找格式\u0026quot;而非\u0026quot;学算术\u0026quot;的结构特征。\n但在部分可观测、动作空间大、reward 稀疏的 agentic 场景，SFT 的失败模式和 RL 的成功模式定性不同。SFT 学的是\u0026quot;给定 context 下一个 token 是什么\u0026rdquo;，训练集里的轨迹默认老师\u0026quot;知道该干嘛\u0026rdquo;，模型学不到\u0026quot;不确定时该追问\u0026quot;这种元认知动作，因为老师的 demonstration 里从不展示不确定状态。RL 能学到的是 SFT 永远学不到的东西：面对分布外 state 如何通过 exploration 找到好动作，这不是知识是 policy。\n更准确的表述不是\u0026quot;RL 能不能泛化\u0026quot;，而是：RL 是唯一能学到\u0026quot;OOD state 下的行为策略\u0026quot;的训练范式。这个区分在单步任务上看不出来，因为没有探索空间；但在 multi-turn + stateful 任务上被放大，这正是 agentic RL 在训练层面与 tool-augmented SFT 的分界线。\n当前 benchmark 测错了东西 回到\u0026quot;credit assignment 做对了又如何\u0026quot;这个根问题。如果在 HotpotQA / Musique / ToolBench / MATH 上通过 step-level reward 涨 3-5 个点，这个结果之所以不触发任何直觉上的\u0026quot;解决了问题\u0026quot;的感觉，根源是这些 benchmark 本身没有测 agentic 能力：\n第一，reward 可验证的窄域 benchmark，其环境无状态、动作可逆、约束平铺，不包含任何 agentic RL 的本质特征。在这类 benchmark 上 credit assignment 的精细化只是优化一个错题。\n第二，benchmark 的\u0026quot;正确性\u0026quot;度量是 final answer 对不对，不度量决策质量。一个 agent 追问了本该追问的、避开了不可逆错误、正确识别了约束偏序——这些 agentic 意义上的\u0026quot;做得好\u0026quot;在 EM 分数上不体现。一个只靠运气猜对 final answer 的 trajectory 和一个完美执行决策链的 trajectory 在当前 benchmark 下不可区分。\n第三，benchmark 环境的工具拓扑固定单一，不度量跨拓扑泛化。一个在 Wikipedia search 上训好的 policy 迁移到订机票工具链上完全不工作，但这件事在现有 benchmark 体系下不被惩罚。\n真正值得推进的三个方向 基于前述分析，agentic RL 里只有三个方向在直接推进本质问题：\n方向 问题 当前状态 学术性 vs 工程性 P1 环境建设 造有状态、偏序约束、不可逆动作的 benchmark 空白 工程为主，学术价值 90% P2 决策度量 定义\u0026quot;轨迹质量\u0026quot;而非 final answer 正确性 无共识 学术为主 P3 拓扑泛化 训练在 A 工具集，zero-shot 泛化到 B 工具集 概念未收敛 学术为主 三者共享一个元判据：是否增加了环境的复杂度、是否改变了度量的对象、是否检验了 policy 的迁移。在 HotpotQA 上做再精细的 credit assignment 都不属于这三项中的任何一项，因此即使工程上成功，在 agentic RL 的本质意义上也不是前进。\n相反，这三个方向任一切片都是真正的前进：构造一个带\u0026quot;向用户追问\u0026quot;和\u0026quot;不可逆支付\u0026quot;的 toy agent 环境，哪怕只有三个工具；定义一个同时度量\u0026quot;追问质量 + 偏序识别 + 并行利用率\u0026quot;的复合指标并在现有 baseline 上测出负面结果；用 TinyZero pipeline 在两个工具拓扑上训练-测试看泛化崩塌的定量规律。这些切片算力需求不大，学术价值远高于在大 benchmark 上刷点。\n方法论层面的提醒 形式相似性会误导方向选择。multi-turn tool call 这个名字统一了 Search-R1、ReTool 和东京机票问题，但前两者和后者在解空间的几何结构上不是同一个问题。被名字绑架会导致在\u0026quot;用 Search-R1 的方法解东京机票\u0026quot;这个错误坐标系里打转。从\u0026quot;信息闭环的形状\u0026quot;重新分类，比从\u0026quot;工具数量 + 轮数\u0026quot;分类更本质。\n方法创新和问题定义是两个独立的 axis。当前 agentic RL 的绝大部分工作是在\u0026quot;问题定义不变\u0026quot;的前提下优化方法（新的 reward shaping、新的 loss masking、新的 advantage estimator），这些工作即使成功也只是把一个定义错的问题解得更精。更稀缺的工作是重新定义问题本身——提出新的环境、新的度量、新的泛化协议。position paper 和 benchmark paper 在这个意义上被系统性低估，因为它们没有 SOTA 数字但推动的是整个领域的坐标系。\n\u0026ldquo;RL 是否泛化\u0026quot;这个争论的真正意义是选任务不是选方法。如果任务本身是可验证窄域，RL 大概率只是在放大 SFT 的能力；如果任务是 stateful + OOD state + 稀疏 reward，RL 做的事 SFT 做不了。争论的答案取决于任务选择，不取决于算法细节，所以\u0026quot;我该用 SFT 还是 RL\u0026quot;这个问题在问法上就错了，正确的问法是\u0026quot;我的任务有没有 OOD state 需要被 policy 应对\u0026rdquo;。\n留下的裂缝 stateful agent benchmark 的缺失是方向的主要瓶颈。当前所有被广泛使用的 agentic benchmark 要么是无状态检索（HotpotQA 家族）、要么是可逆沙盒（ToolBench、MINT），没有一个真正包含\u0026quot;向人类追问 + 不可逆支付 + 动态约束\u0026quot;的组合。WebArena、OSWorld 部分触及但评测依赖 final state 匹配，仍然回到\u0026quot;结果对不对\u0026quot;而非\u0026quot;决策好不好\u0026quot;。构造一个小而锋利的 stateful benchmark 是当前方向里 ROI 最高的动作，但绝大多数研究者回避这类工作因为它看起来不够\u0026quot;算法性\u0026quot;。\n决策质量指标尚无形式化定义。\u0026ldquo;轨迹好\u0026quot;目前只能靠人类评审判断，无法自动化因此无法进入 RL 的 reward loop。是否可能定义一个不依赖 final answer 的 trajectory-level reward，覆盖\u0026quot;追问合理性、偏序识别、并行利用率、不可逆动作的风险控制\u0026quot;四个维度？这件事没有被严肃尝试过，是一个开放问题。\n跨工具拓扑的泛化协议未被定义。\u0026ldquo;把 Wikipedia search 训练的 agent 迁移到订机票\u0026quot;这类泛化当前没有标准测试协议，什么算\u0026quot;不同拓扑\u0026rdquo;、什么算\u0026quot;泛化成功\u0026rdquo;、zero-shot 和 few-shot 的 baseline 是什么，全部悬空。这个问题的形式化可能本身就是一篇 position paper。\ncredit assignment 的价值依赖于任务选择。step-level reward 的研究在错任务上是屠龙术，在对任务上是刚需。判断它是不是刚需的 litmus test 很简单：这个任务上 outcome-only reward 会不会让模型学到 reward hacking。如果不会（如 Search-R1 的 EM），credit assignment 锦上添花；如果会（如有不可逆动作的环境，一次错误支付会让整条轨迹的 outcome reward 失真传播），credit assignment 是唯一解。当前 credit assignment 的论文几乎全在前者上做实验，这是方向内部的自我消解。\n结论 agentic RL 真正推进的不是\u0026quot;多轮工具调用\u0026quot;这个形式，而是\u0026quot;在 stateful、部分可观测、含不可逆动作的环境里学习 sequential decision policy\u0026quot;这个本质问题。Search-R1 / ReTool / Toolformer 都是这个大问题在强假设下的退化特例，把它们的方法直接套到真实 agent 任务上，失败不是因为方法不好而是因为假设不成立。\n这个重新定位的直接后果是对研究选题的重新排序。在现有可验证 benchmark 上做 reward shaping 和 credit assignment 的工作即使技术上正确，也不推进本质问题，因为 benchmark 本身没有测 agentic 能力。真正的 ROI 集中在三件事：造出有状态、偏序、不可逆的新环境；定义超越 final answer 的决策质量度量；验证跨工具拓扑的泛化协议。这三件事每一件都比\u0026quot;在 HotpotQA 上涨 4 个 EM\u0026quot;更难发表但更有长期价值，短期投稿回报和长期研究品味在这里必须做一次显式的取舍。\n从更广的视角看，agentic RL 重复了 RLM 走过的同一种思维迁移——从\u0026quot;把更多东西塞进模型\u0026quot;转向\u0026quot;把模型放进更复杂的世界\u0026quot;。RLM 把 prompt 从 context window 搬到 REPL 环境里；agentic RL 要把 decision 从可验证的输出搬到有状态的环境里。两者共享同一个设计哲学——让模型做它擅长的认知决策，让符号系统和外部环境承担各自擅长的部分。眼睛看得更多是 context scaling，手伸得更远是 tool use，真正的 agent 是要走进去站着的那个身体。这条路不短，但它的第一个路标必须是把问题本身定义清楚。\n","permalink":"/blog/posts/agentic-rl-essence/","summary":"从信息闭环、状态性、不可逆动作和决策质量度量重新定义 agentic RL，区分它与 RLM、single-turn tool use 和 verifiable multi-turn tool use 的本质边界。","title":"Agentic RL 的本质：从\"给模型接工具\"到\"给模型放进环境\""},{"content":"Agent-World：看清当下开源与闭源 Agent 能力差距的一面镜子 Agent-World 来自人大高瓴与字节 Seed，是 2026 年 4 月新出的一篇 agentic RL 工作。这篇论文信息密度极高，实验设计在同类工作中算得上最完整的。阅读完整篇后，最值得分享的不是它训出的那个 14B 模型多强，而是文中呈现的几个结构性事实——这些事实对判断当前 agent 方向的真实状态非常有价值。\n观察点 一：在复杂 agentic 任务上，专门做过 RL 的开源小模型，依然距离闭源通用大模型很远。\n二：\u0026ldquo;环境 scaling law\u0026quot;在子任务层面不是一条平滑曲线，而是四种完全不同形态的 learning curve 被强行平均。\n三：self-evolution 的增益比较前倾——第一轮吃掉 70% 的提升，第二轮只剩 30%。期待更多轮之后的结果\n四：agent RL 的\u0026quot;胜利\u0026quot;依赖训练分布覆盖，分布内特化，分布外泛化非常有限。(待进一步验证)\n五：作为一篇方法论文，工程细节的隐性选择（SFT 数据来源、clip ratio 改造、诊断模型复用）的贡献可能不小于\u0026quot;环境合成 pipeline\u0026quot;的贡献。\n一：开源与闭源在 agent 任务上的真实差距 这是整篇论文最有价值的\u0026quot;副产品\u0026rdquo;。Table 1 主结果一列上去，四个 frontier 闭源模型、六个开源大模型、六个环境 scaling 小模型同台，数字非常直白。\n几个代表性对比：\n模型 MCP-Mark BFCL V4 τ²-Bench Agent-World-14B（RL 强化开源） 13.3 55.8 65.4 GPT-5.2 High（闭源通用） 53.1 62.9 80.2 Claude Sonnet-4.5 33.3 73.2 84.7 Gemini-3 Pro 50.8 72.5 85.4 一个经过专门环境合成 + SFT + GRPO 训练的 14B 开源模型，在未做针对性训练的闭源通用模型面前，差距依然是 20 到 40 个点。这个差距不是方法能填平的——它来自三处结构性差异：基座参数量（14B vs 估算 1T+）、预训练数据与真实 agent trace 的见识、post-training 链路的完整度。\n这件事值得被看清楚的原因是：过去两年\u0026quot;小模型 RL 赶超大模型\u0026quot;的叙事（DeepSeek-R1、DAPO 等）是在封闭可验证任务上成立的（数学、代码）。一旦迁移到 agentic tool-use 这种开放空间任务，RL 的作用回归到\u0026quot;把已有能力 amplify\u0026quot;，它创造不了基座里没有的先验\nAgent-World 的真正贡献是把 Qwen3-14B 从 MCP-Mark 3.4% 推到 13.3%。这是从\u0026quot;基本不能用\u0026quot;到\u0026quot;勉强能做研究演示\u0026quot;的跨越，是真实贡献，但并不等于追平闭源。\n观察点二：Scaling 曲线的四种形态 论文最核心的点之一是\u0026quot;环境数量与 agent 性能正相关\u0026quot;。Figure 1 右下画了一条平均曲线，从 18.4 涨到 38.5，看起来是标准的 scaling law。\n但 Figure 8 把这条平均曲线拆成了四个独立子任务，露出了完全不同的面貌。\n四个任务在 0→2000 环境区间的表现：\n任务 起点 终点 形态 MCPMark Postgres 4.8 19.9 缓慢线性 BFCL WebSearch 7.0 47.0 陡峭 S 形，1000 后完全饱和 BFCL Multi-Turn 35.3 47.0 温和线性，未饱和 τ²-Bench Airline 26.5 40.0 阶梯式 WebSearch 在 500→1000 段爆发性增长，1000 之后几乎停在 47.0；Multi-Turn 从头到尾都在线性增长，2000 时仍有空间；Postgres 的每个 10× 阶段都涨 4 个点左右；Airline 在 500→1000 是平台期，之后又开始小梯子。\n这四条曲线放在一起看，可以得到一个反直觉但重要的结论：环境 scaling 不是一个统一的 scaling law，而是多个任务各自的 learning curve 叠加。每个任务需要的数据密度、饱和点、乃至\u0026quot;量变到质变\u0026quot;的临界点都不同。用单一平均曲线描述它们，会把这些结构性差异全部掩盖。\n对于后续想做环境合成的工作，这意味着\u0026quot;均匀增加环境\u0026quot;不是最有效的策略。识别每个能力的 scaling 形态，把预算集中在边际收益最高的那一段，比无差别扩展更合理。\n观察点三：Self-Evolution 的增益前倾 论文的另一个核心贡献是 continuous self-evolving arena——一个基于诊断 agent 识别弱环境、定向生成新数据的闭环。\nTable 2 给了两轮 evolution 的增益数据。\n把每轮增益占总增益的比例算出来：\nRound Agent-World-14B EnvScaler-8B +1 round 约 73% 约 70% +2 rounds 约 27% 约 30% 第一轮吃掉 70% 的总增益，第二轮只贡献 30%。按指数衰减外推，第三轮的增益大概率落在 1 个点以内，第四轮就接近噪声。这个行为更像是一次性 curriculum refinement，而不是真正的 continuous evolution。\n另一个被 Table 2 提及的点是：self-evolution loop 在 EnvScaler-8B 上也能跑出类似的提升比例。这说明这个 loop 的增益和 Agent-World 的前置环境合成管线是解耦的——任何一个 agent RL 基线接入这套 loop，都能拿到一轮明显、一轮轻微的提升。换个角度看，\u0026ldquo;环境合成\u0026quot;和\u0026quot;self-evolution\u0026quot;是两个独立的方法论贡献，可以分开评估。\n论文里 Algorithm 1 的第 9 行有一个值得注意的细节：环境数据库在每轮 evolution 中被 in-place 修改。这意味着 Round 0 和 Round 2 的环境不是同一套环境，round-to-round 的对比严格来说不完全可控。\n观察点四：分布内特化 vs 分布外泛化 把 Table 1 的数字按子任务看，Agent-World 的增益分布呈现一个很清晰的模式。\nBFCL V4 中，Agent-World-8B 相对 Qwen3-8B 涨了 11 个点（40.4 → 51.4）。拆到子任务：\n子任务 Qwen3-8B Agent-World-8B Δ WebSearch 7.0 47.0 +40 Multi-T 35.4 44.5 +9.1 Memory 17.6 21.7 +4.1 No live 90.2 83.3 -6.9 WebSearch 单列涨了 40 个点，贡献了 BFCL 整体提升的一大半。而 No live（静态 function signature 匹配）反而退步 6.9 个点——这是一个负迁移的明确证据。\n类似的模式在 MCP-Mark 里也很明显：14B 版本在 Postgres 子任务上从基线的 4.8 涨到 38.1，但 GitHub（4.4）、Notion（3.6）、Playwright（4.0）几乎没动。\n再看 Figure 6 的 17 个 benchmark 雷达图。\n一旦进入训练分布稀疏的领域（GAIA、HLE、ARC-AGI-2 这种真正 open-ended 的 agent benchmark），Agent-World-8B 相对 Qwen3-8B 的提升基本在 1-2 个点之内。而在训练分布密集的领域（WebWalkerQA、SWE、Terminal），提升幅度是 4-9 个点。\n结合 Figure 3 的环境分布看，这个模式完全说得通——MCP 生态本身就是 DevOps / API Gateway / Web Extraction 主导，Healthcare、Travel、Academic Research 这些领域只有二三十个 server。训练数据密度决定了最终能力分布。\nAgent RL 这个方向当前的情况：post-training 阶段的 RL 能放大的是训练分布内的能力，分布外的迁移非常有限。这对\u0026quot;用什么数据训练什么能力\u0026quot;的资源分配决策很关键。\n观察点五：被低估的工程细节 论文的 Implementation Details 一段写得很朴素，但每个数字背后都是关键决策。\n关于模型选择：环境挖掘、任务合成、代码/rubric 生成、diagnosis agent——四个角色全部用 GPT-OSS-120B。这意味着整条 pipeline 的能力天花板不会超过 GPT-OSS-120B 自身的认知范围。它看不见的失败模式，永远不会被诊断出来，也就永远不会被补进下一轮数据。\n冷启 SFT 的 40K trajectories 用的是字节内部的 Doubao-Seed-1.8 policy model 生成的。这是一个外部无法获得的模型。SFT 数据质量在整条训练链路里的贡献占比，从论文里无法剥离出来。\n关于训练 infrastructure：\n参数 值 Backbone Qwen3-8B / 14B SFT trajectories 40K（Doubao-Seed-1.8 生成） RL samples 5K RL 算法 GRPO + DAPO Clip-Higher ε_low 0.2 ε_high 0.28 Max trajectory 80K tokens Max generation per step 32K tokens Batch tasks 32 Rollouts per task 8 Temperature 1.0（训练和评测都是） 论文中\u0026quot;set ε_low=0.2, ε_high=0.28\u0026rdquo;，正是 DAPO 的 Clip-Higher 技术。推测Figure 9(b) 里那条\u0026quot;entropy 持续上升\u0026quot;的漂亮曲线，很大程度是 Clip-Higher 在后面撑着——如果用 vanilla GRPO，在多环境 RL 里 entropy 大概率会 collapse。\nFigure 9(a) 还有一个细节：Qwen3-8B 的 training reward 在 Step 330 时曲线末端仍在上升，训练被提前终止了。论文公布的 Agent-World-8B 性能数字可能是一个被截断的结果，不是收敛的结果。\n复现这套 pipeline 时容易踩的坑：\n直接用 vanilla GRPO 跑多环境 RL，大概率会 entropy collapse。必须上 Clip-Higher 的不对称 clip ratio。 工具生成阶段的过滤阈值（Acc \u0026gt; 0.5）相当宽松，会留下一批\u0026quot;勉强能跑但边界情况出错\u0026quot;的工具进入训练集。如果目标是训练稳定性，可以把阈值提到 0.8，但工具留存率会大幅下降。 任务过滤用的 Pass@5 ≥ 2 也比较宽松。Figure 4(f) 显示最终数据集里大约 68% 的任务在 Pass@10 下得分为 0——这些任务对 GRPO 来说没有梯度信号（全败的组 advantage 全 0）。实际有效的训练样本只有大约 23%。做 curriculum learning 把这批零分任务过滤掉，可能是一个不错的改进方向。 环境 database 在 self-evolution 中被 in-place 修改。如果要做可复现实验，必须保留每轮的 database 快照。 诊断 agent 和合成 agent 用同一个模型会有 blind spot。用一个不同家族的模型做 diagnosis（例如用 Claude 诊断 GPT-OSS 合成的数据上训出的 agent），可能会发现更多真实错误模式。 评测用 temperature=1.0 + 跑 8 次取平均，论文没报 std。复现时强烈建议报 mean ± std，并在比较时把小于 2×std 的差距视为 tie。 总结 Agent-World 的工程完整度在同类工作里算得上最高——两千个真实 MCP 环境、两种互补的任务合成策略、可执行的 reward、双层闭环训练框架、23 个 benchmark 的实验矩阵。论文的严谨性远超很多同类工作。它真正让人受益的点，是通过完整的实验呈现出了几个容易被忽视的结构性事实：开源小模型与闭源 frontier 的真实差距、scaling 曲线在子任务上的异质性、self-evolution 的衰减速度、分布内特化与分布外泛化的边界。这些认知比\u0026quot;某个 14B 模型拿了多少分\u0026quot;有价值得多。对任何想在 agent RL 方向继续推进的工作来说，Agent-World 都值得认真读一遍。\n","permalink":"/blog/posts/md2card-1776902437685/","summary":"围绕 Agent-World 论文，梳理开源小模型与闭源通用模型在复杂 agentic 任务上的差距、环境 scaling law 的形态以及 self-evolution 的收益结构。","title":"Agent-World：看清当下开源与闭源 Agent 能力差距的一面镜子"},{"content":"RL 训练中该看哪些指标：从 entropy 到 faithfulness 的尺度梳理 做 RL post-training 时最容易犯的错误，是把\u0026quot;loss 降了、reward 涨了\u0026quot;当成训练 healthy 的充分证据。这两个指标确实是必要条件，但远远不够。Reward 能在 policy 已经 mode collapse 的情况下继续涨，loss 能在 reasoning 已经 spurious 的情况下继续降。真正的训练诊断需要在多个尺度上同时观察。\n这篇梳理 RL 训练中值得监控的指标，按它们所处的观察尺度组织，并指出每个指标实际能告诉观察者什么、不能告诉什么。\n一、先建立一个尺度坐标 所有 RL 相关指标可以放进一个三维坐标：在什么里面算 × 跨什么维度波动 × 衡量什么对象。\n坐标轴 取值 算的范围 单 token / 单 rollout / 同 prompt 的 group / 整个 batch / 整个训练过程 波动维度 词表 / rollout / prompt / 时间 衡量对象 策略不确定性 / 任务难度 / 路径多样性 / 推理质量 同一个词（比如 \u0026ldquo;variance\u0026rdquo;）在不同轴上指向完全不同的含义。先把坐标搭起来，后面所有指标就各归其位。\n二、Token 尺度：生成内部的犹豫 Token entropy 定义：在生成每个 token 时，策略分布在词表上的熵。\n公式：H = −Σ π(v|context) log π(v|context)\n衡量的是模型在这一步有多犹豫。高熵意味着在多个 token 之间举棋不定，低熵意味着几乎确定选哪个。\n这是 Clip-Cov 那条线的核心关切。RL 训练存在系统性的\u0026quot;entropy squeeze\u0026quot;——随着训练推进，策略会越来越 confident，entropy 单调下降，最终丧失探索能力。Clip-Cov 的修正思路是避免 clip 掉高熵 token 的梯度，因为这些高熵位置恰恰是策略还在探索的地方。\nEntropy 的局限：它是局部指标，高熵可能是深思熟虑，也可能是乱蒙，单看 entropy 不能判定 reasoning 质量。\nPolicy gradient clip fraction 被 PPO-style clip 截断的 token 比例。\n范围 含义 过低 更新幅度小，学习缓慢 中等稳定 Healthy 过高 更新过于激进，被大量截断 clip fraction 和 entropy 应当一起看。Entropy 高但 clip fraction 低，说明在充分探索且更新温和；Entropy 低但 clip fraction 高，是典型的训练不稳——模型已经收敛到窄模式但更新还在试图拉它离开，两股力打架。\nKL divergence to reference 新策略与参考策略（通常是 SFT checkpoint）的 KL。过低意味着没学到新东西，过高意味着偏离 pretrain 太远、可能损失基础能力。HGPO 训练曲线的一个有意思对比：GRPO 的 KL 偏低（学得慢），GiGPO 的 KL 偏高（太激进），HGPO 居中（稳）。KL 的绝对值本身没有标准，但训练过程中的轨迹形状非常能说明问题。\n三、Rollout 尺度：单条轨迹内部的信号 Response length 与 correctness 的联合分布 R1 和 o1 观察到的现象是：RL 训练中 response length 单调上升，模型\u0026quot;学会了长思考\u0026quot;。\n但这是个双刃观察。DrGRPO 明确指出 GRPO 存在 \u0026ldquo;length bias\u0026rdquo;——advantage 按 token 数归一化的方式会系统性奖励更长的 response，哪怕内容在重复废话。真正值得看的不是 length 本身，而是 length 与 correctness 的条件相关性：\n观察 诊断 长响应 → 正确率升高 Healthy，长思考真的在帮 长响应 → 正确率不变 虚假 length 增长 长响应 → 正确率下降 Overthinking / hallucination 风险 Think / Answer / Tool call 的分段质量 这是很多训练监控里容易被忽略的点。一条 rollout 在 agent / reasoning 场景下通常有多段结构（、、\u0026lt;tool_call\u0026gt;、），每段的健康度需要分开监控：\n段落 关键指标 长度分布、重复率、内部 entropy、是否真在推理 格式合规率、与 的一致性、长度 \u0026lt;tool_call\u0026gt; 调用次数、参数格式、重复调用率 对后续 的影响度 一个实际容易出现但不被察觉的失败模式：模型学会了在 里写一些模板化的 \u0026ldquo;Let me think step by step\u0026hellip;\u0026quot;，但真正的 reasoning 已经退化成 lookup。这时候 的 length 和 entropy 都正常，只有** 内容与 的 mutual information** 这种更深的指标能抓到。\nTool call efficiency（search-augmented 场景） GiGPO 的 search-QA 实验里报了一个很值得借鉴的指标：平均工具调用次数。在 tool use 场景下，调用次数是 agency quality 的直接 proxy：\n现象 诊断 调用次数稳定在 1.0 左右 高效，只在需要时调用 调用次数接近上限 模型在机械地重复调用 调用次数方差大 策略不稳定 redundant tool call 是 agent RL 里一个很隐蔽的失败模式——reward 看起来没问题（最终答对了），但每个 query 被反复搜索了 3-5 次，推理成本和延迟都爆炸。只看 reward 完全看不出来。\n四、Group 尺度：同 prompt 跨 rollout 的波动 Reward variance（GRPO 里的 σ_G） 这是 group-based RL 算法里用来归一化 advantage 的那个 σ。衡量的是同一 prompt 下 N 条 rollout 的 reward 标准差。\nσ_G 的取值 含义 0（全对） 任务对当前 policy 太简单 0（全错） 任务对当前 policy 太难 中等 有对有错，最有学习信号的区间 σ_G = 0 的 prompt 在 GRPO 里白采——advantage 全是 0，没有梯度。DAPO 的 Dynamic Sampling 就是显式用这个信号过滤 prompt。监控 batch 里 σ_G = 0 的比例是判断\u0026quot;当前数据集对 policy 是否合适\u0026quot;的直接指标。\nPass@k − Pass@1 gap 同一 prompt 采 N 条 rollout，看 k 次里至少对一次的概率与单次正确率的差距。\n差距 诊断 大差距 Policy 知道怎么做但不稳定，有多条潜在有效路径 小差距且 Pass@1 高 稳定地会 小差距且 Pass@1 低 稳定地不会 Pass@k 差距大是一个正面信号——意味着模型有潜力，只是当前输出分布没有把潜力集中到第一次采样。这种情况下，self-consistency / majority vote 通常能显著提升性能。\nTrajectory diversity 同 prompt 下 N 条 rollout 的轨迹空间距离，不是 reward 空间距离。三种常见做法：\n度量 适用场景 Action sequence edit distance 离散动作空间（ALFWorld、WebShop） State visitation 覆盖率 环境 state 空间小 CoT embedding pairwise cosine Reasoning 场景 GiGPO 的 Figure 5 实际上隐式报了这个——\u0026ldquo;step-level group size 分布向 N=8 集中\u0026rdquo; 就是 trajectory diversity 坍缩的证据。作者当成\u0026quot;policy 学稳了\u0026quot;来读，但反过来也可以读成 \u0026ldquo;exploration 丢了\u0026rdquo;。一个健康的训练应该在 exploitation 和 exploration 之间有明确的节奏感，而不是单调坍缩。\n五、Prompt 尺度：跨 prompt 的分布 Prompt-level reward 分布 整个训练 batch 里，不同 prompt 的 reward 分布形状。长尾（少数 prompt 拿到所有正 reward）意味着学习信号集中在一小部分数据，其余数据对 policy 贡献接近零。这种情况下 effective batch size 远小于实际 batch size。\nPrompt 难度分层的梯度流 健康训练的一个特征：中等难度 prompt 贡献主要梯度。如果发现简单 prompt（σ_G=0）占比过高，说明课程已经过时；困难 prompt 占比过高，说明 policy 被甩开太远。Curriculum / 动态数据过滤就是在操作这个分布。\nOOD 性能偏移 HGPO 的一个有意思观察：所有 baseline 在 ALFWorld 的 out-of-distribution 任务上都有显著性能降低，HGPO 降得最少。这个 in-distribution 与 out-of-distribution 的 gap 值得单独监控——它直接反映 policy 是真的 generalize 了，还是只在训练分布上 overfit。\n六、时间尺度：训练过程的轨迹 Entropy 随训练步数的衰减曲线 单调下降是常态，但下降速度很说明问题。前 50 步急剧下降（collapse）与平滑下降（learning）差异巨大，前者几乎一定伴随后期性能饱和。\nReward 增长与 Pass@k 增长的解耦 Reward 还在涨但 Pass@k 不涨——模型在把更多采样集中到已知的正确模式上，没有在发现新模式。这是 mode collapse 的早期信号，远早于 reward 开始掉头。\nGradient norm 与 update magnitude 训练稳定性的基础指标，但容易被忽略。Gradient norm 突刺通常对应某条极端 reward 的 rollout，常见于稀疏奖励场景。\n七、Reasoning 质量：真正困难的那一层 前面所有指标都是\u0026quot;训练机制内生的\u0026rdquo;——被算出来是为了让算法 work，顺便被拿来看 policy 状态。它们的定义域里没有 reasoning 质量这个变量。\n一条正确轨迹是深思熟虑得出的，还是 spurious reasoning 蒙对的，在前述所有指标下不可分辨。衡量这件事需要更贵的指标。\nFaithfulness probe 核心思路：干预 CoT（删除中间步、注入错误、paraphrase），观察最终答案是否变化。\n干预后答案稳定性 诊断 干预后答案不变 CoT 是装饰，非 causal（unfaithful） 干预后答案按预期改变 CoT 是真实推理链条（faithful） 这是 Anthropic 2023 \u0026ldquo;Measuring Faithfulness in CoT\u0026rdquo; 和 Turpin 2023 \u0026ldquo;CoT Can Be Unfaithful\u0026rdquo; 那条线的核心方法。主要成本是需要为每条待评估的 rollout 额外生成 k 条干预版本，评估成本线性放大。\nTurpin 的反直觉 finding 值得记住：看起来推理清晰的 CoT 经常反而是更 unfaithful 的。\u0026ldquo;清晰\u0026quot;可能只是在表演清晰，真正的决策过程发生在别处。这个 finding 直接质疑了\u0026quot;reward CoT 质量能提升推理能力\u0026quot;的朴素假设。\nSelf-consistency gap Majority vote over N samples 的准确率减去单次准确率。这是一个便宜的 faithfulness proxy——如果 CoT 真的在做推理，不同 CoT 路径应当收敛到同一正确答案，majority vote 会显著高于单次。\nIntermediate step verification 在有 ground truth intermediate state 的环境里（如数学题的中间等式、代码的中间变量值），可以直接验证 里声明的中间结论是否正确。这类信号很贵但极准，是当前 process reward model（PRM）的数据来源。\n八、监控仪表盘的搭建建议 把上述指标组织成一个多层仪表盘，每层回答一个问题：\n层 核心问题 主要指标 L1 训练稳定性 优化在 work 吗 Loss、gradient norm、clip fraction、KL L2 策略行为 Policy 在如何变化 Token entropy、response length、tool call 次数 L3 学习信号 数据对 policy 有价值吗 σ_G 分布、Pass@k−Pass@1、prompt 难度分布 L4 探索健康度 还在探索吗 Trajectory diversity、group size 分布 L5 泛化 学到的是模式还是背题 ID vs OOD gap、hold-out 性能 L6 推理质量 CoT 是真在推理吗 Faithfulness probe、self-consistency gap 大多数工作只看 L1 和 L5，少数工作看 L2-L4，几乎没有工作在训练过程中持续监控 L6。这不是因为 L6 不重要，而是因为 L6 贵——但越是靠近上层的问题越接近 RL 的本质，越是被忽略的指标越可能成为下一代方法的突破口。\n九、结语 监控指标的选择本身就是研究品味的体现。只看 reward 是对 RL 最浅的理解；看 entropy 和 KL 是标准实践；看 trajectory diversity 和 σ 分布是对 group-based RL 的成熟理解；看 faithfulness 和 CoT causal structure 是在质疑 RL 框架本身能否塑造真实的 reasoning。\n指标的层级和研究方向的层级有对应关系。选择在哪一层看训练、在哪一层提出新指标，本身就决定了工作能触达的天花板。\n","permalink":"/blog/posts/md2card-1776977077971/","summary":"按 token、rollout、group、batch 和训练过程等尺度梳理 RL post-training 中应观察的诊断指标，以及每个指标能说明和不能说明什么。","title":"RL 训练中该看哪些指标：从 entropy 到 faithfulness 的尺度梳理"}]