Reinforcement Learning

Agentic RL 的本质：从"给模型接工具"到"给模型放进环境"

从信息闭环、状态性、不可逆动作和决策质量度量重新定义 agentic RL，区分它与 RLM、single-turn tool use 和 verifiable multi-turn tool use 的本质边界。

按 token、rollout、group、batch 和训练过程等尺度梳理 RL post-training 中应观察的诊断指标，以及每个指标能说明和不能说明什么。