云迹

状态—-》根据策略选择动作—》环境根据动作给出反馈（奖励），并进入新的状态

策略和环境都包含了不确定性

光用奖励评估是不够的，可以记录选择某个动作的价值Q

当然，我们也可以把这个标记标在状态上。为了方便沟通，我们这样定义 - 评估动作的价值，我们称为Q值：它代表了智能体选择这个动作后，一直到最终状态奖励总和的期望； - 评估状态的价值，我们称为V值：它代表了智能体在这个状态下，一直到最终状态的奖励总和的期望。