RL 训练中该看哪些指标:从 entropy 到 faithfulness 的尺度梳理按 token、rollout、group、batch 和训练过程等尺度梳理 RL post-training 中应观察的诊断指标,以及每个指标能说明和不能说明什么。