Agentic RL 的本质:从"给模型接工具"到"给模型放进环境"

从信息闭环、状态性、不可逆动作和决策质量度量重新定义 agentic RL,区分它与 RLM、single-turn tool use 和 verifiable multi-turn tool use 的本质边界。

April 25, 2026 · 3 min · Chaoyu Wang

Agent-World:看清当下开源与闭源 Agent 能力差距的一面镜子

围绕 Agent-World 论文,梳理开源小模型与闭源通用模型在复杂 agentic 任务上的差距、环境 scaling law 的形态以及 self-evolution 的收益结构。

April 24, 2026 · 3 min · Chaoyu Wang

RL 训练中该看哪些指标:从 entropy 到 faithfulness 的尺度梳理

按 token、rollout、group、batch 和训练过程等尺度梳理 RL post-training 中应观察的诊断指标,以及每个指标能说明和不能说明什么。

April 24, 2026 · 4 min · Chaoyu Wang