序贯决策

  什么是序贯决策

  序贯决策是用于随机性或不确定性动态系统最优化的决策方法。

  序贯决策的特点

  序贯决策的特点是:

  ①所研究的系统是动态的,即系统所处的状态与时间有关,可周期(或连续)地对它观察;

  ②决策是序贯地进行的,即每个时刻根据所观察到的状态和以前状态的记录,从一组可行方案中选用一个最优方案(即作最优决策),使取决于状态的某个目标函数取最优值(极大或极小值);

  ③系统下一步(或未来)可能出现的状态是随机的或不确定的。

  序贯决策的过程

  序贯决策的过程是:从初始状态开始,每个时刻作出最优决策后,接着观察下一步实际出现的状态,即收集新的信息,然后再作出新的最优决策,反复进行直至最后。

  系统在每次作出决策后下一步可能出现的状态是不能确切预知的,存在两种情况:

  ①系统下一步可能出现的状态的概率分布是已知的,可用客观概率的条件分布来描述。对于这类系统的序贯决策研究得较完满的是状态转移律具有无后效性的系统,相应的序贯决策称为马尔可夫决策过程,它是将马尔可夫过程理论与决定性动态规划相结合的产物。

  ②系统下一步可能出现的状态的概率分布不知道,只能用主观概率的条件分布来描述。用于这类系统的序贯决策属于决策分析的内容


行业百科分类导航
关于学酷网 | About studyku.cn | 联系我们 | 广告合作 | 诚聘英才 | 广告服务 | 帮助中心 | 管理中心 [更多]
studyku.cn 2007 版权所有 不得转载 京ICP备09028838号
本站部分资源来源于网络,版权归作者或者来源机构所有,如果涉及任何版权方面的问题,请与我们联系!