状态—-》根据策略选择动作—》环境根据动作给出反馈(奖励),并进入新的状态

策略和环境都包含了不确定性

光用奖励评估是不够的,可以记录选择某个动作的价值Q

当然,我们也可以把这个标记标在状态上。为了方便沟通,我们这样定义 - 评估动作的价值,我们称为Q值:它代表了智能体选择这个动作后,一直到最终状态奖励总和期望; - 评估状态的价值,我们称为V值:它代表了智能体在这个状态下,一直到最终状态的奖励总和期望