Agent-World：看清当下开源与闭源 Agent 能力差距的一面镜子

Agent-World 来自人大高瓴与字节 Seed，是 2026 年 4 月新出的一篇 agentic RL 工作。这篇论文信息密度极高，实验设计在同类工作中算得上最完整的。阅读完整篇后，最值得分享的不是它训出的那个 14B 模型多强，而是文中呈现的几个结构性事实——这些事实对判断当前 agent 方向的真实状态非常有价值。

观察点

一：在复杂 agentic 任务上，专门做过 RL 的开源小模型，依然距离闭源通用大模型很远。

二：“环境 scaling law"在子任务层面不是一条平滑曲线，而是四种完全不同形态的 learning curve 被强行平均。

三：self-evolution 的增益比较前倾——第一轮吃掉 70% 的提升，第二轮只剩 30%。期待更多轮之后的结果

四：agent RL 的"胜利"依赖训练分布覆盖，分布内特化，分布外泛化非常有限。(待进一步验证)

五：作为一篇方法论文，工程细节的隐性选择（SFT 数据来源、clip ratio 改造、诊断模型复用）的贡献可能不小于"环境合成 pipeline"的贡献。

一：开源与闭源在 agent 任务上的真实差距

这是整篇论文最有价值的"副产品”。Table 1 主结果一列上去，四个 frontier 闭源模型、六个开源大模型、六个环境 scaling 小模型同台，数字非常直白。

几个代表性对比：

模型	MCP-Mark	BFCL V4	τ²-Bench
Agent-World-14B（RL 强化开源）	13.3	55.8	65.4
GPT-5.2 High（闭源通用）	53.1	62.9	80.2
Claude Sonnet-4.5	33.3	73.2	84.7
Gemini-3 Pro	50.8	72.5	85.4

一个经过专门环境合成 + SFT + GRPO 训练的 14B 开源模型，在未做针对性训练的闭源通用模型面前，差距依然是 20 到 40 个点。这个差距不是方法能填平的——它来自三处结构性差异：基座参数量（14B vs 估算 1T+）、预训练数据与真实 agent trace 的见识、post-training 链路的完整度。

这件事值得被看清楚的原因是：过去两年"小模型 RL 赶超大模型"的叙事（DeepSeek-R1、DAPO 等）是在封闭可验证任务上成立的（数学、代码）。一旦迁移到 agentic tool-use 这种开放空间任务，RL 的作用回归到"把已有能力 amplify"，它创造不了基座里没有的先验

Agent-World 的真正贡献是把 Qwen3-14B 从 MCP-Mark 3.4% 推到 13.3%。这是从"基本不能用"到"勉强能做研究演示"的跨越，是真实贡献，但并不等于追平闭源。

观察点二：Scaling 曲线的四种形态

论文最核心的点之一是"环境数量与 agent 性能正相关"。Figure 1 右下画了一条平均曲线，从 18.4 涨到 38.5，看起来是标准的 scaling law。

但 Figure 8 把这条平均曲线拆成了四个独立子任务，露出了完全不同的面貌。

四个任务在 0→2000 环境区间的表现：

任务	起点	终点	形态
MCPMark Postgres	4.8	19.9	缓慢线性
BFCL WebSearch	7.0	47.0	陡峭 S 形，1000 后完全饱和
BFCL Multi-Turn	35.3	47.0	温和线性，未饱和
τ²-Bench Airline	26.5	40.0	阶梯式

WebSearch 在 500→1000 段爆发性增长，1000 之后几乎停在 47.0；Multi-Turn 从头到尾都在线性增长，2000 时仍有空间；Postgres 的每个 10× 阶段都涨 4 个点左右；Airline 在 500→1000 是平台期，之后又开始小梯子。

这四条曲线放在一起看，可以得到一个反直觉但重要的结论：环境 scaling 不是一个统一的 scaling law，而是多个任务各自的 learning curve 叠加。每个任务需要的数据密度、饱和点、乃至"量变到质变"的临界点都不同。用单一平均曲线描述它们，会把这些结构性差异全部掩盖。

对于后续想做环境合成的工作，这意味着"均匀增加环境"不是最有效的策略。识别每个能力的 scaling 形态，把预算集中在边际收益最高的那一段，比无差别扩展更合理。

观察点三：Self-Evolution 的增益前倾

论文的另一个核心贡献是 continuous self-evolving arena——一个基于诊断 agent 识别弱环境、定向生成新数据的闭环。

Table 2 给了两轮 evolution 的增益数据。

把每轮增益占总增益的比例算出来：

Round	Agent-World-14B	EnvScaler-8B
+1 round	约 73%	约 70%
+2 rounds	约 27%	约 30%

第一轮吃掉 70% 的总增益，第二轮只贡献 30%。按指数衰减外推，第三轮的增益大概率落在 1 个点以内，第四轮就接近噪声。这个行为更像是一次性 curriculum refinement，而不是真正的 continuous evolution。

另一个被 Table 2 提及的点是：self-evolution loop 在 EnvScaler-8B 上也能跑出类似的提升比例。这说明这个 loop 的增益和 Agent-World 的前置环境合成管线是解耦的——任何一个 agent RL 基线接入这套 loop，都能拿到一轮明显、一轮轻微的提升。换个角度看，“环境合成"和"self-evolution"是两个独立的方法论贡献，可以分开评估。

论文里 Algorithm 1 的第 9 行有一个值得注意的细节：环境数据库在每轮 evolution 中被 in-place 修改。这意味着 Round 0 和 Round 2 的环境不是同一套环境，round-to-round 的对比严格来说不完全可控。

观察点四：分布内特化 vs 分布外泛化

把 Table 1 的数字按子任务看，Agent-World 的增益分布呈现一个很清晰的模式。

BFCL V4 中，Agent-World-8B 相对 Qwen3-8B 涨了 11 个点（40.4 → 51.4）。拆到子任务：

子任务	Qwen3-8B	Agent-World-8B	Δ
WebSearch	7.0	47.0	+40
Multi-T	35.4	44.5	+9.1
Memory	17.6	21.7	+4.1
No live	90.2	83.3	-6.9

WebSearch 单列涨了 40 个点，贡献了 BFCL 整体提升的一大半。而 No live（静态 function signature 匹配）反而退步 6.9 个点——这是一个负迁移的明确证据。

类似的模式在 MCP-Mark 里也很明显：14B 版本在 Postgres 子任务上从基线的 4.8 涨到 38.1，但 GitHub（4.4）、Notion（3.6）、Playwright（4.0）几乎没动。

再看 Figure 6 的 17 个 benchmark 雷达图。

一旦进入训练分布稀疏的领域（GAIA、HLE、ARC-AGI-2 这种真正 open-ended 的 agent benchmark），Agent-World-8B 相对 Qwen3-8B 的提升基本在 1-2 个点之内。而在训练分布密集的领域（WebWalkerQA、SWE、Terminal），提升幅度是 4-9 个点。

结合 Figure 3 的环境分布看，这个模式完全说得通——MCP 生态本身就是 DevOps / API Gateway / Web Extraction 主导，Healthcare、Travel、Academic Research 这些领域只有二三十个 server。训练数据密度决定了最终能力分布。

Agent RL 这个方向当前的情况：post-training 阶段的 RL 能放大的是训练分布内的能力，分布外的迁移非常有限。这对"用什么数据训练什么能力"的资源分配决策很关键。

观察点五：被低估的工程细节

论文的 Implementation Details 一段写得很朴素，但每个数字背后都是关键决策。

关于模型选择：环境挖掘、任务合成、代码/rubric 生成、diagnosis agent——四个角色全部用 GPT-OSS-120B。这意味着整条 pipeline 的能力天花板不会超过 GPT-OSS-120B 自身的认知范围。它看不见的失败模式，永远不会被诊断出来，也就永远不会被补进下一轮数据。

冷启 SFT 的 40K trajectories 用的是字节内部的 Doubao-Seed-1.8 policy model 生成的。这是一个外部无法获得的模型。SFT 数据质量在整条训练链路里的贡献占比，从论文里无法剥离出来。

关于训练 infrastructure：

参数	值
Backbone	Qwen3-8B / 14B
SFT trajectories	40K（Doubao-Seed-1.8 生成）
RL samples	5K
RL 算法	GRPO + DAPO Clip-Higher
ε_low	0.2
ε_high	0.28
Max trajectory	80K tokens
Max generation per step	32K tokens
Batch tasks	32
Rollouts per task	8
Temperature	1.0（训练和评测都是）

论文中"set ε_low=0.2, ε_high=0.28”，正是 DAPO 的 Clip-Higher 技术。推测Figure 9(b) 里那条"entropy 持续上升"的漂亮曲线，很大程度是 Clip-Higher 在后面撑着——如果用 vanilla GRPO，在多环境 RL 里 entropy 大概率会 collapse。

Figure 9(a) 还有一个细节：Qwen3-8B 的 training reward 在 Step 330 时曲线末端仍在上升，训练被提前终止了。论文公布的 Agent-World-8B 性能数字可能是一个被截断的结果，不是收敛的结果。

复现这套 pipeline 时容易踩的坑：

直接用 vanilla GRPO 跑多环境 RL，大概率会 entropy collapse。必须上 Clip-Higher 的不对称 clip ratio。
工具生成阶段的过滤阈值（Acc > 0.5）相当宽松，会留下一批"勉强能跑但边界情况出错"的工具进入训练集。如果目标是训练稳定性，可以把阈值提到 0.8，但工具留存率会大幅下降。
任务过滤用的 Pass@5 ≥ 2 也比较宽松。Figure 4(f) 显示最终数据集里大约 68% 的任务在 Pass@10 下得分为 0——这些任务对 GRPO 来说没有梯度信号（全败的组 advantage 全 0）。实际有效的训练样本只有大约 23%。做 curriculum learning 把这批零分任务过滤掉，可能是一个不错的改进方向。
环境 database 在 self-evolution 中被 in-place 修改。如果要做可复现实验，必须保留每轮的 database 快照。
诊断 agent 和合成 agent 用同一个模型会有 blind spot。用一个不同家族的模型做 diagnosis（例如用 Claude 诊断 GPT-OSS 合成的数据上训出的 agent），可能会发现更多真实错误模式。
评测用 temperature=1.0 + 跑 8 次取平均，论文没报 std。复现时强烈建议报 mean ± std，并在比较时把小于 2×std 的差距视为 tie。

总结

Agent-World 的工程完整度在同类工作里算得上最高——两千个真实 MCP 环境、两种互补的任务合成策略、可执行的 reward、双层闭环训练框架、23 个 benchmark 的实验矩阵。论文的严谨性远超很多同类工作。它真正让人受益的点，是通过完整的实验呈现出了几个容易被忽视的结构性事实：开源小模型与闭源 frontier 的真实差距、scaling 曲线在子任务上的异质性、self-evolution 的衰减速度、分布内特化与分布外泛化的边界。这些认知比"某个 14B 模型拿了多少分"有价值得多。对任何想在 agent RL 方向继续推进的工作来说，Agent-World 都值得认真读一遍。

Agent-World：看清当下开源与闭源 Agent 能力差距的一面镜子#

观察点#

一：开源与闭源在 agent 任务上的真实差距#

观察点二：Scaling 曲线的四种形态#

观察点三：Self-Evolution 的增益前倾#

观察点四：分布内特化 vs 分布外泛化#

观察点五：被低估的工程细节#

总结#