第１９卷第２１期

２００７年１１月

系统仿真学报

Ⅷ１９Ｎｏ

２１

Ｎｏｖ．２００７

究强化学习算法的基本框架。ＭＤＰ模型可以用一个四元组

来描述，肘＝｛ｓ，Ａｒ，脚嘲。其中：Ｓ为状态空间；Ａ为行

动空间；Ｔ：Ｓｘａ－－＞ｌ＇１ｒ．Ｓ）为状态转移函数；Ｒ：ｓ×Ａ枷为

报酬函数。系统的日标是获得最优策略矿，使得性能指标

的累积报酬和最大。

平均报酬ＭＤＰ与折扣报酬ＭＤＰ模型要素的定义相同，

两者只是在性能指标值函数的定义上有所不同。

在折扣报酬ＭＤＰ中性能指标定义为在状态ｊ执行策略

痄，在后续无限时间区间内获得的折扣报酬的和的期望值。即，

，Ⅳ一Ｉ

、

∥（ｓ）２舰Ｅｉ∑，砰（，）Ｉ

（１）

＼Ｆ２ｕ

，

其中，Ｏ＜Ｙ＜１为折扣因子，群（ｊ）为在ｔ时刻，给定状态ｓ，

执行策略石所获得的立即报酬。

在平均报酬ＭＤＰ中性能指标定义为在状态Ｊ执行策略

石，在后续无限时间区间内获得的报酬和的平均期望值。即，

硝加～ｌｉｍＩⅣＥ（委Ｎ－Ｉ舶））

其中，矿（ｓ）表示在状态ｊ执行策略口的平均报酬。假设各个

状态是遍历的，则策略石的平均报酬是不依赖于状态Ｊ的

［５１，即

，（砷＝矿（ｙ）＝矿

（３）

对于单链平均报酬ＭＤＰ存在唯一的标量Ｐ’和函数

矿ｍ，对于所有的状态ｊ，满足以下Ｂｅｌｌｍａｎ最优性方程田，

Ｖ’（Ｊ）＋，＝ｍ”（，（ｊ，４）＋∑Ｂ（ｓ．４ｙ’（Ｊ’））

（４）

’

Ｊ＿

其中．Ｖ・∽为状态ｓ在最优策略下的相对值函数，Ｐ‘为最

优平均报酬。求解平均报酬ＭＤＰ的目标是找到策略石’，使

得智能体可以获得最优平均报酬，即Ｐ‘＝口，，对于所有策

略石，满足ｐ７（Ｊ）≥Ｐ，（５）。

２平均报酬强化学习

２．１

Ｒ－ｌｅａｒｎｌｎｇ

Ｓｃｈｗａｒｔｚ提出Ｒ－ｌｅａｒｎｉｎｇ的平均报酬强化学习算法口ｌ，

与Ｑ．１ｅａｒｎｉｎｇ的折扣报酬强化学习算法相类似，Ｒ－ｌｅａｒｎｉｎｇ

的平均报酬强化学习算法也是利用行为值函数进行求解的，

这里记为矿（Ｊ，Ⅱ），表示在状态ｊ下选择行为口，后续策略

保持为石的平均调整值，定义式如下，

Ｒ。（＂）２

ｒ（ｓ，口）一Ｐ’＋二匕・（口’盟：月４（Ｊ’，口）

（５）

‘

其中，口－为策略石的平均报酬，即平均性能指标，求解的

目标是寻找使得矿最优的策略。

Ｒ—ｌｅａｒｎｉｎｇ的迭代过程包括两部分，即对行为值函数的

迭代和对平均性能指标的迭代。这两种迭代的时间尺度是不

同的：在每个时刻，对行为值函数进行迭代，当满足一定的

条件时，才对平均性能指标进行迭代，具体的算法流程如下圆：

①令ｔ＝０，对于当前的状态ｓ，初始化所有的冠（ｓｇａ）；

②按照某种探索性的行为选择策略选择行为口．使行

为值函数蜀（Ｊ，口）最大；

③执行行为ａ，进入状态ｓ。，计算报酬函数ｒ（ｓ，ｄ），

按照以下规则更新行为值函数Ｒ（ｊ，ａ）和平均报酬Ｐ：

冠““口）＜－－冠（ｊ，ａ）＋ａｆｒ（ｓ，ａ）一ｐ＋ｒｎ戤冠（ｓ。，口）一Ｒ（ｊ，４）】

若更新后的Ｒ＋。（以ａ）为该状态的最大行为值，即

Ｒ＋１（Ｊ，Ⅱ）＝ｍａｘＲ（ｓ，ａ），则对报酬函数Ｐ进行更新：

ｎ＋１÷＿ｎ＋所ｒ（ｓ。４）一ｎ＋ｍａｘ足（Ｊ’．ｄ）一ｍ缸足（ｊ，口）ｌ

其中，０≤ｔｚ＜１１０≤矗ｓ１，分别为行为值函数和平均性能指

标的迭代学习率；

④令ｊ÷＿ｊ’；

⑤下一时刻ｔ＋ｌ返回２重复执行．

２．２泛化和函数逼近

这里将电梯群组虚拟仿真环境作为平均报酬强化学习

算法的验证平台。由于电梯群控系统拥有巨大的状态空间，

应用表格的形式存储行为值函数不可行，这里采用ＲＢＦ神

经网络作为泛化和函数逼近方法。

ＲＢＦ神经网络拓扑图如图ｌ所示。ＲＢＦ网络从输入层

空间到隐层空间的变换是非线性的，而从隐层空间到输出层

空间的变换则是线性的，这是一种前馈网络的拓扑结构。输

入层到隐层的权值矩阵Ｗｗ都为１，隐层单元输出函数为；

螂）－ｅ叫一％笋川＝ｌｔ２．。ｍ

（６）

其中．Ｘ为ｎ维输入向量；ｃ为隐层第ｉ个高斯函数的中

心，与Ｘ具有相同维数；ｑ是第ｉ个隐单元的归一化参数，

即为高斯函数的宽度；ｍ是隐层单元的个数；ＩＩｘ—ｏＩＩ是向

量ｘ—日的范数，表示ｘ和ｑ之间的距离，蜀（ｘ）在ｑ处有

一个唯一的最大值，随着¨Ｘ—ｃｌＵ的增大，冠（ｘ）迅速衰减

到零。ＲＢＦ网络的输出为：

∑ｗｆ墨（ｘ）

，（ｘ）＝号一

（７）

∑ＲｄＸ）

ｗｊ是从第ｉ个隐单元到输出单元的连接权。ＲＢＦ神经网

络的训练包括高斯函数的中心ｃｊ和宽度仉，隐层到输出层

的权值Ｗｕｏ，采用一种基于最近邻聚类的学习算法来进行网

络的在线训练【埘。该算法是一种在线自适应聚类学习算法，

不需要事先确定隐层神经元的个数，只需确定宽度西的大小。

圈１

ＲＢＦ神经网络拓扑圈

３基于平均报酬强化学习的电梯群组调度

将电梯群控系统视为多个智能体，根据由Ｒ．１ｅａｒｍｎｇ的

万方数据