强化学习给任务调度问题提供了一种model-free的算法。

策略梯度学习算法

基于价值函数的学习算法

多智能体强化学习

independent learner (IL) approach in MARL