Agent-World:看清当下开源与闭源 Agent 能力差距的一面镜子

Agent-World 来自人大高瓴与字节 Seed,是 2026 年 4 月新出的一篇 agentic RL 工作。这篇论文信息密度极高,实验设计在同类工作中算得上最完整的。阅读完整篇后,最值得分享的不是它训出的那个 14B 模型多强,而是文中呈现的几个结构性事实——这些事实对判断当前 agent 方向的真实状态非常有价值。

观察点

:在复杂 agentic 任务上,专门做过 RL 的开源小模型,依然距离闭源通用大模型很远。

:“环境 scaling law"在子任务层面不是一条平滑曲线,而是四种完全不同形态的 learning curve 被强行平均。

:self-evolution 的增益比较前倾——第一轮吃掉 70% 的提升,第二轮只剩 30%。期待更多轮之后的结果

:agent RL 的"胜利"依赖训练分布覆盖,分布内特化,分布外泛化非常有限。(待进一步验证)

:作为一篇方法论文,工程细节的隐性选择(SFT 数据来源、clip ratio 改造、诊断模型复用)的贡献可能不小于"环境合成 pipeline"的贡献。

一:开源与闭源在 agent 任务上的真实差距

这是整篇论文最有价值的"副产品”。Table 1 主结果一列上去,四个 frontier 闭源模型、六个开源大模型、六个环境 scaling 小模型同台,数字非常直白。

几个代表性对比:

模型MCP-MarkBFCL V4τ²-Bench
Agent-World-14B(RL 强化开源)13.355.865.4
GPT-5.2 High(闭源通用)53.162.980.2
Claude Sonnet-4.533.373.284.7
Gemini-3 Pro50.872.585.4

一个经过专门环境合成 + SFT + GRPO 训练的 14B 开源模型,在未做针对性训练的闭源通用模型面前,差距依然是 20 到 40 个点。这个差距不是方法能填平的——它来自三处结构性差异:基座参数量(14B vs 估算 1T+)、预训练数据与真实 agent trace 的见识、post-training 链路的完整度。

这件事值得被看清楚的原因是:过去两年"小模型 RL 赶超大模型"的叙事(DeepSeek-R1、DAPO 等)是在封闭可验证任务上成立的(数学、代码)。一旦迁移到 agentic tool-use 这种开放空间任务,RL 的作用回归到"把已有能力 amplify",它创造不了基座里没有的先验

Agent-World 的真正贡献是把 Qwen3-14B 从 MCP-Mark 3.4% 推到 13.3%。这是从"基本不能用"到"勉强能做研究演示"的跨越,是真实贡献,但并不等于追平闭源。

观察点二:Scaling 曲线的四种形态

论文最核心的点之一是"环境数量与 agent 性能正相关"。Figure 1 右下画了一条平均曲线,从 18.4 涨到 38.5,看起来是标准的 scaling law。

但 Figure 8 把这条平均曲线拆成了四个独立子任务,露出了完全不同的面貌。

四个任务在 0→2000 环境区间的表现:

任务起点终点形态
MCPMark Postgres4.819.9缓慢线性
BFCL WebSearch7.047.0陡峭 S 形,1000 后完全饱和
BFCL Multi-Turn35.347.0温和线性,未饱和
τ²-Bench Airline26.540.0阶梯式

WebSearch 在 500→1000 段爆发性增长,1000 之后几乎停在 47.0;Multi-Turn 从头到尾都在线性增长,2000 时仍有空间;Postgres 的每个 10× 阶段都涨 4 个点左右;Airline 在 500→1000 是平台期,之后又开始小梯子。

这四条曲线放在一起看,可以得到一个反直觉但重要的结论:环境 scaling 不是一个统一的 scaling law,而是多个任务各自的 learning curve 叠加。每个任务需要的数据密度、饱和点、乃至"量变到质变"的临界点都不同。用单一平均曲线描述它们,会把这些结构性差异全部掩盖。

对于后续想做环境合成的工作,这意味着"均匀增加环境"不是最有效的策略。识别每个能力的 scaling 形态,把预算集中在边际收益最高的那一段,比无差别扩展更合理。

观察点三:Self-Evolution 的增益前倾

论文的另一个核心贡献是 continuous self-evolving arena——一个基于诊断 agent 识别弱环境、定向生成新数据的闭环。

Table 2 给了两轮 evolution 的增益数据。

把每轮增益占总增益的比例算出来:

RoundAgent-World-14BEnvScaler-8B
+1 round约 73%约 70%
+2 rounds约 27%约 30%

第一轮吃掉 70% 的总增益,第二轮只贡献 30%。按指数衰减外推,第三轮的增益大概率落在 1 个点以内,第四轮就接近噪声。这个行为更像是一次性 curriculum refinement,而不是真正的 continuous evolution。

另一个被 Table 2 提及的点是:self-evolution loop 在 EnvScaler-8B 上也能跑出类似的提升比例。这说明这个 loop 的增益和 Agent-World 的前置环境合成管线是解耦的——任何一个 agent RL 基线接入这套 loop,都能拿到一轮明显、一轮轻微的提升。换个角度看,“环境合成"和"self-evolution"是两个独立的方法论贡献,可以分开评估。

论文里 Algorithm 1 的第 9 行有一个值得注意的细节:环境数据库在每轮 evolution 中被 in-place 修改。这意味着 Round 0 和 Round 2 的环境不是同一套环境,round-to-round 的对比严格来说不完全可控。

观察点四:分布内特化 vs 分布外泛化

把 Table 1 的数字按子任务看,Agent-World 的增益分布呈现一个很清晰的模式。

BFCL V4 中,Agent-World-8B 相对 Qwen3-8B 涨了 11 个点(40.4 → 51.4)。拆到子任务:

子任务Qwen3-8BAgent-World-8BΔ
WebSearch7.047.0+40
Multi-T35.444.5+9.1
Memory17.621.7+4.1
No live90.283.3-6.9

WebSearch 单列涨了 40 个点,贡献了 BFCL 整体提升的一大半。而 No live(静态 function signature 匹配)反而退步 6.9 个点——这是一个负迁移的明确证据。

类似的模式在 MCP-Mark 里也很明显:14B 版本在 Postgres 子任务上从基线的 4.8 涨到 38.1,但 GitHub(4.4)、Notion(3.6)、Playwright(4.0)几乎没动。

再看 Figure 6 的 17 个 benchmark 雷达图。

一旦进入训练分布稀疏的领域(GAIA、HLE、ARC-AGI-2 这种真正 open-ended 的 agent benchmark),Agent-World-8B 相对 Qwen3-8B 的提升基本在 1-2 个点之内。而在训练分布密集的领域(WebWalkerQA、SWE、Terminal),提升幅度是 4-9 个点。

结合 Figure 3 的环境分布看,这个模式完全说得通——MCP 生态本身就是 DevOps / API Gateway / Web Extraction 主导,Healthcare、Travel、Academic Research 这些领域只有二三十个 server。训练数据密度决定了最终能力分布。

Agent RL 这个方向当前的情况:post-training 阶段的 RL 能放大的是训练分布内的能力,分布外的迁移非常有限。这对"用什么数据训练什么能力"的资源分配决策很关键。

观察点五:被低估的工程细节

论文的 Implementation Details 一段写得很朴素,但每个数字背后都是关键决策。

关于模型选择:环境挖掘、任务合成、代码/rubric 生成、diagnosis agent——四个角色全部用 GPT-OSS-120B。这意味着整条 pipeline 的能力天花板不会超过 GPT-OSS-120B 自身的认知范围。它看不见的失败模式,永远不会被诊断出来,也就永远不会被补进下一轮数据。

冷启 SFT 的 40K trajectories 用的是字节内部的 Doubao-Seed-1.8 policy model 生成的。这是一个外部无法获得的模型。SFT 数据质量在整条训练链路里的贡献占比,从论文里无法剥离出来。

关于训练 infrastructure

参数
BackboneQwen3-8B / 14B
SFT trajectories40K(Doubao-Seed-1.8 生成)
RL samples5K
RL 算法GRPO + DAPO Clip-Higher
ε_low0.2
ε_high0.28
Max trajectory80K tokens
Max generation per step32K tokens
Batch tasks32
Rollouts per task8
Temperature1.0(训练和评测都是)

论文中"set ε_low=0.2, ε_high=0.28”,正是 DAPO 的 Clip-Higher 技术。推测Figure 9(b) 里那条"entropy 持续上升"的漂亮曲线,很大程度是 Clip-Higher 在后面撑着——如果用 vanilla GRPO,在多环境 RL 里 entropy 大概率会 collapse。

Figure 9(a) 还有一个细节:Qwen3-8B 的 training reward 在 Step 330 时曲线末端仍在上升,训练被提前终止了。论文公布的 Agent-World-8B 性能数字可能是一个被截断的结果,不是收敛的结果。

复现这套 pipeline 时容易踩的坑

  • 直接用 vanilla GRPO 跑多环境 RL,大概率会 entropy collapse。必须上 Clip-Higher 的不对称 clip ratio。
  • 工具生成阶段的过滤阈值(Acc > 0.5)相当宽松,会留下一批"勉强能跑但边界情况出错"的工具进入训练集。如果目标是训练稳定性,可以把阈值提到 0.8,但工具留存率会大幅下降。
  • 任务过滤用的 Pass@5 ≥ 2 也比较宽松。Figure 4(f) 显示最终数据集里大约 68% 的任务在 Pass@10 下得分为 0——这些任务对 GRPO 来说没有梯度信号(全败的组 advantage 全 0)。实际有效的训练样本只有大约 23%。做 curriculum learning 把这批零分任务过滤掉,可能是一个不错的改进方向。
  • 环境 database 在 self-evolution 中被 in-place 修改。如果要做可复现实验,必须保留每轮的 database 快照。
  • 诊断 agent 和合成 agent 用同一个模型会有 blind spot。用一个不同家族的模型做 diagnosis(例如用 Claude 诊断 GPT-OSS 合成的数据上训出的 agent),可能会发现更多真实错误模式。
  • 评测用 temperature=1.0 + 跑 8 次取平均,论文没报 std。复现时强烈建议报 mean ± std,并在比较时把小于 2×std 的差距视为 tie。

总结

Agent-World 的工程完整度在同类工作里算得上最高——两千个真实 MCP 环境、两种互补的任务合成策略、可执行的 reward、双层闭环训练框架、23 个 benchmark 的实验矩阵。论文的严谨性远超很多同类工作。它真正让人受益的点,是通过完整的实验呈现出了几个容易被忽视的结构性事实:开源小模型与闭源 frontier 的真实差距、scaling 曲线在子任务上的异质性、self-evolution 的衰减速度、分布内特化与分布外泛化的边界。这些认知比"某个 14B 模型拿了多少分"有价值得多。对任何想在 agent RL 方向继续推进的工作来说,Agent-World 都值得认真读一遍。