Chaoyu Wang Blog

Chaoyu Wang Blog /blog/ Recent content on Chaoyu Wang Blog Chaoyu Wang Blog /blog/images/papermod-cover.png /blog/images/papermod-cover.png Hugo en-us Chaoyu Wang Sat, 25 Apr 2026 00:00:00 +0000 Agentic RL 的本质：从"给模型接工具"到"给模型放进环境" /blog/posts/agentic-rl-essence/ Sat, 25 Apr 2026 00:00:00 +0000 /blog/posts/agentic-rl-essence/ 从信息闭环、状态性、不可逆动作和决策质量度量重新定义 agentic RL，区分它与 RLM、single-turn tool use 和 verifiable multi-turn tool use 的本质边界。 Agent-World：看清当下开源与闭源 Agent 能力差距的一面镜子 /blog/posts/md2card-1776902437685/ Fri, 24 Apr 2026 00:00:00 +0000 /blog/posts/md2card-1776902437685/ 围绕 Agent-World 论文，梳理开源小模型与闭源通用模型在复杂 agentic 任务上的差距、环境 scaling law 的形态以及 self-evolution 的收益结构。 RL 训练中该看哪些指标：从 entropy 到 faithfulness 的尺度梳理 /blog/posts/md2card-1776977077971/ Fri, 24 Apr 2026 00:00:00 +0000 /blog/posts/md2card-1776977077971/ 按 token、rollout、group、batch 和训练过程等尺度梳理 RL post-training 中应观察的诊断指标，以及每个指标能说明和不能说明什么。