Agent-World:看清当下开源与闭源 Agent 能力差距的一面镜子
Agent-World 来自人大高瓴与字节 Seed,是 2026 年 4 月新出的一篇 agentic RL 工作。这篇论文信息密度极高,实验设计在同类工作中算得上最完整的。阅读完整篇后,最值得分享的不是它训出的那个 14B 模型多强,而是文中呈现的几个结构性事实——这些事实对判断当前 agent 方向的真实状态非常有价值。
观察点
一:在复杂 agentic 任务上,专门做过 RL 的开源小模型,依然距离闭源通用大模型很远。
二:“环境 scaling law"在子任务层面不是一条平滑曲线,而是四种完全不同形态的 learning curve 被强行平均。
三:self-evolution 的增益比较前倾——第一轮吃掉 70% 的提升,第二轮只剩 30%。期待更多轮之后的结果
四:agent RL 的"胜利"依赖训练分布覆盖,分布内特化,分布外泛化非常有限。(待进一步验证)
五:作为一篇方法论文,工程细节的隐性选择(SFT 数据来源、clip ratio 改造、诊断模型复用)的贡献可能不小于"环境合成 pipeline"的贡献。
一:开源与闭源在 agent 任务上的真实差距
这是整篇论文最有价值的"副产品”。Table 1 主结果一列上去,四个 frontier 闭源模型、六个开源大模型、六个环境 scaling 小模型同台,数字非常直白。

几个代表性对比:
| 模型 | MCP-Mark | BFCL V4 | τ²-Bench |
|---|---|---|---|
| Agent-World-14B(RL 强化开源) | 13.3 | 55.8 | 65.4 |
| GPT-5.2 High(闭源通用) | 53.1 | 62.9 | 80.2 |
| Claude Sonnet-4.5 | 33.3 | 73.2 | 84.7 |
| Gemini-3 Pro | 50.8 | 72.5 | 85.4 |
一个经过专门环境合成 + SFT + GRPO 训练的 14B 开源模型,在未做针对性训练的闭源通用模型面前,差距依然是 20 到 40 个点。这个差距不是方法能填平的——它来自三处结构性差异:基座参数量(14B vs 估算 1T+)、预训练数据与真实 agent trace 的见识、post-training 链路的完整度。
这件事值得被看清楚的原因是:过去两年"小模型 RL 赶超大模型"的叙事(DeepSeek-R1、DAPO 等)是在封闭可验证任务上成立的(数学、代码)。一旦迁移到 agentic tool-use 这种开放空间任务,RL 的作用回归到"把已有能力 amplify",它创造不了基座里没有的先验
Agent-World 的真正贡献是把 Qwen3-14B 从 MCP-Mark 3.4% 推到 13.3%。这是从"基本不能用"到"勉强能做研究演示"的跨越,是真实贡献,但并不等于追平闭源。
观察点二:Scaling 曲线的四种形态
论文最核心的点之一是"环境数量与 agent 性能正相关"。Figure 1 右下画了一条平均曲线,从 18.4 涨到 38.5,看起来是标准的 scaling law。
但 Figure 8 把这条平均曲线拆成了四个独立子任务,露出了完全不同的面貌。

四个任务在 0→2000 环境区间的表现:
| 任务 | 起点 | 终点 | 形态 |
|---|---|---|---|
| MCPMark Postgres | 4.8 | 19.9 | 缓慢线性 |
| BFCL WebSearch | 7.0 | 47.0 | 陡峭 S 形,1000 后完全饱和 |
| BFCL Multi-Turn | 35.3 | 47.0 | 温和线性,未饱和 |
| τ²-Bench Airline | 26.5 | 40.0 | 阶梯式 |
WebSearch 在 500→1000 段爆发性增长,1000 之后几乎停在 47.0;Multi-Turn 从头到尾都在线性增长,2000 时仍有空间;Postgres 的每个 10× 阶段都涨 4 个点左右;Airline 在 500→1000 是平台期,之后又开始小梯子。
这四条曲线放在一起看,可以得到一个反直觉但重要的结论:环境 scaling 不是一个统一的 scaling law,而是多个任务各自的 learning curve 叠加。每个任务需要的数据密度、饱和点、乃至"量变到质变"的临界点都不同。用单一平均曲线描述它们,会把这些结构性差异全部掩盖。
对于后续想做环境合成的工作,这意味着"均匀增加环境"不是最有效的策略。识别每个能力的 scaling 形态,把预算集中在边际收益最高的那一段,比无差别扩展更合理。
观察点三:Self-Evolution 的增益前倾
论文的另一个核心贡献是 continuous self-evolving arena——一个基于诊断 agent 识别弱环境、定向生成新数据的闭环。
Table 2 给了两轮 evolution 的增益数据。

把每轮增益占总增益的比例算出来:
| Round | Agent-World-14B | EnvScaler-8B |
|---|---|---|
| +1 round | 约 73% | 约 70% |
| +2 rounds | 约 27% | 约 30% |
第一轮吃掉 70% 的总增益,第二轮只贡献 30%。按指数衰减外推,第三轮的增益大概率落在 1 个点以内,第四轮就接近噪声。这个行为更像是一次性 curriculum refinement,而不是真正的 continuous evolution。
另一个被 Table 2 提及的点是:self-evolution loop 在 EnvScaler-8B 上也能跑出类似的提升比例。这说明这个 loop 的增益和 Agent-World 的前置环境合成管线是解耦的——任何一个 agent RL 基线接入这套 loop,都能拿到一轮明显、一轮轻微的提升。换个角度看,“环境合成"和"self-evolution"是两个独立的方法论贡献,可以分开评估。
论文里 Algorithm 1 的第 9 行有一个值得注意的细节:环境数据库在每轮 evolution 中被 in-place 修改。这意味着 Round 0 和 Round 2 的环境不是同一套环境,round-to-round 的对比严格来说不完全可控。

观察点四:分布内特化 vs 分布外泛化
把 Table 1 的数字按子任务看,Agent-World 的增益分布呈现一个很清晰的模式。
BFCL V4 中,Agent-World-8B 相对 Qwen3-8B 涨了 11 个点(40.4 → 51.4)。拆到子任务:
| 子任务 | Qwen3-8B | Agent-World-8B | Δ |
|---|---|---|---|
| WebSearch | 7.0 | 47.0 | +40 |
| Multi-T | 35.4 | 44.5 | +9.1 |
| Memory | 17.6 | 21.7 | +4.1 |
| No live | 90.2 | 83.3 | -6.9 |
WebSearch 单列涨了 40 个点,贡献了 BFCL 整体提升的一大半。而 No live(静态 function signature 匹配)反而退步 6.9 个点——这是一个负迁移的明确证据。
类似的模式在 MCP-Mark 里也很明显:14B 版本在 Postgres 子任务上从基线的 4.8 涨到 38.1,但 GitHub(4.4)、Notion(3.6)、Playwright(4.0)几乎没动。
再看 Figure 6 的 17 个 benchmark 雷达图。

一旦进入训练分布稀疏的领域(GAIA、HLE、ARC-AGI-2 这种真正 open-ended 的 agent benchmark),Agent-World-8B 相对 Qwen3-8B 的提升基本在 1-2 个点之内。而在训练分布密集的领域(WebWalkerQA、SWE、Terminal),提升幅度是 4-9 个点。
结合 Figure 3 的环境分布看,这个模式完全说得通——MCP 生态本身就是 DevOps / API Gateway / Web Extraction 主导,Healthcare、Travel、Academic Research 这些领域只有二三十个 server。训练数据密度决定了最终能力分布。
Agent RL 这个方向当前的情况:post-training 阶段的 RL 能放大的是训练分布内的能力,分布外的迁移非常有限。这对"用什么数据训练什么能力"的资源分配决策很关键。
观察点五:被低估的工程细节
论文的 Implementation Details 一段写得很朴素,但每个数字背后都是关键决策。
关于模型选择:环境挖掘、任务合成、代码/rubric 生成、diagnosis agent——四个角色全部用 GPT-OSS-120B。这意味着整条 pipeline 的能力天花板不会超过 GPT-OSS-120B 自身的认知范围。它看不见的失败模式,永远不会被诊断出来,也就永远不会被补进下一轮数据。
冷启 SFT 的 40K trajectories 用的是字节内部的 Doubao-Seed-1.8 policy model 生成的。这是一个外部无法获得的模型。SFT 数据质量在整条训练链路里的贡献占比,从论文里无法剥离出来。
关于训练 infrastructure:
| 参数 | 值 |
|---|---|
| Backbone | Qwen3-8B / 14B |
| SFT trajectories | 40K(Doubao-Seed-1.8 生成) |
| RL samples | 5K |
| RL 算法 | GRPO + DAPO Clip-Higher |
| ε_low | 0.2 |
| ε_high | 0.28 |
| Max trajectory | 80K tokens |
| Max generation per step | 32K tokens |
| Batch tasks | 32 |
| Rollouts per task | 8 |
| Temperature | 1.0(训练和评测都是) |
论文中"set ε_low=0.2, ε_high=0.28”,正是 DAPO 的 Clip-Higher 技术。推测Figure 9(b) 里那条"entropy 持续上升"的漂亮曲线,很大程度是 Clip-Higher 在后面撑着——如果用 vanilla GRPO,在多环境 RL 里 entropy 大概率会 collapse。
Figure 9(a) 还有一个细节:Qwen3-8B 的 training reward 在 Step 330 时曲线末端仍在上升,训练被提前终止了。论文公布的 Agent-World-8B 性能数字可能是一个被截断的结果,不是收敛的结果。
复现这套 pipeline 时容易踩的坑:
- 直接用 vanilla GRPO 跑多环境 RL,大概率会 entropy collapse。必须上 Clip-Higher 的不对称 clip ratio。
- 工具生成阶段的过滤阈值(Acc > 0.5)相当宽松,会留下一批"勉强能跑但边界情况出错"的工具进入训练集。如果目标是训练稳定性,可以把阈值提到 0.8,但工具留存率会大幅下降。
- 任务过滤用的 Pass@5 ≥ 2 也比较宽松。Figure 4(f) 显示最终数据集里大约 68% 的任务在 Pass@10 下得分为 0——这些任务对 GRPO 来说没有梯度信号(全败的组 advantage 全 0)。实际有效的训练样本只有大约 23%。做 curriculum learning 把这批零分任务过滤掉,可能是一个不错的改进方向。
- 环境 database 在 self-evolution 中被 in-place 修改。如果要做可复现实验,必须保留每轮的 database 快照。
- 诊断 agent 和合成 agent 用同一个模型会有 blind spot。用一个不同家族的模型做 diagnosis(例如用 Claude 诊断 GPT-OSS 合成的数据上训出的 agent),可能会发现更多真实错误模式。
- 评测用 temperature=1.0 + 跑 8 次取平均,论文没报 std。复现时强烈建议报 mean ± std,并在比较时把小于 2×std 的差距视为 tie。
总结
Agent-World 的工程完整度在同类工作里算得上最高——两千个真实 MCP 环境、两种互补的任务合成策略、可执行的 reward、双层闭环训练框架、23 个 benchmark 的实验矩阵。论文的严谨性远超很多同类工作。它真正让人受益的点,是通过完整的实验呈现出了几个容易被忽视的结构性事实:开源小模型与闭源 frontier 的真实差距、scaling 曲线在子任务上的异质性、self-evolution 的衰减速度、分布内特化与分布外泛化的边界。这些认知比"某个 14B 模型拿了多少分"有价值得多。对任何想在 agent RL 方向继续推进的工作来说,Agent-World 都值得认真读一遍。