第19卷第21期
2007年11月
系统仿真学报
Ⅷ19No
21
Nov.2007
究强化学习算法的基本框架。MDP模型可以用一个四元组
来描述,肘={s,Ar,脚嘲。其中:S为状态空间;A为行
动空间;T:Sxa-->l'1r.S)为状态转移函数;R:s×A枷为
报酬函数。系统的日标是获得最优策略矿,使得性能指标
的累积报酬和最大。
平均报酬MDP与折扣报酬MDP模型要素的定义相同,
两者只是在性能指标值函数的定义上有所不同。
在折扣报酬MDP中性能指标定义为在状态j执行策略
痄,在后续无限时间区间内获得的折扣报酬的和的期望值。即,
,Ⅳ一I
、
∥(s)2舰Ei∑,砰(,)I
(1)
\F2u
,
其中,O<Y<1为折扣因子,群(j)为在t时刻,给定状态s,
执行策略石所获得的立即报酬。
在平均报酬MDP中性能指标定义为在状态J执行策略
石,在后续无限时间区间内获得的报酬和的平均期望值。即,
硝加~limIⅣE(委N-I舶))
其中,矿(s)表示在状态j执行策略口的平均报酬。假设各个
状态是遍历的,则策略石的平均报酬是不依赖于状态J的
[51,即
,(砷=矿(y)=矿
(3)
对于单链平均报酬MDP存在唯一的标量P’和函数
矿m,对于所有的状态j,满足以下Bellman最优性方程田,
V’(J)+,=m”(,(j,4)+∑B(s.4y’(J’))
(4)
’
J_
其中.V・∽为状态s在最优策略下的相对值函数,P‘为最
优平均报酬。求解平均报酬MDP的目标是找到策略石’,使
得智能体可以获得最优平均报酬,即P‘=口,,对于所有策
略石,满足p7(J)≥P,(5)。
2平均报酬强化学习
2.1
R-learnlng
Schwartz提出R-learning的平均报酬强化学习算法口l,
与Q.1earning的折扣报酬强化学习算法相类似,R-learning
的平均报酬强化学习算法也是利用行为值函数进行求解的,
这里记为矿(J,Ⅱ),表示在状态j下选择行为口,后续策略
保持为石的平均调整值,定义式如下,
R。(")2
r(s,口)一P’+二匕・(口’盟:月4(J’,口)
(5)
‘
‘
其中,口-为策略石的平均报酬,即平均性能指标,求解的
目标是寻找使得矿最优的策略。
R—learning的迭代过程包括两部分,即对行为值函数的
迭代和对平均性能指标的迭代。这两种迭代的时间尺度是不
同的:在每个时刻,对行为值函数进行迭代,当满足一定的
条件时,才对平均性能指标进行迭代,具体的算法流程如下圆:
①令t=0,对于当前的状态s,初始化所有的冠(sga);
②按照某种探索性的行为选择策略选择行为口.使行
为值函数蜀(J,口)最大;
③执行行为a,进入状态s。,计算报酬函数r(s,d),
按照以下规则更新行为值函数R(j,a)和平均报酬P:
冠““口)<--冠(j,a)+afr(s,a)一p+rn戤冠(s。,口)一R(j,4)】
若更新后的R+。(以a)为该状态的最大行为值,即
R+1(J,Ⅱ)=maxR(s,a),则对报酬函数P进行更新:
n+1÷_n+所r(s。4)一n+max足(J’.d)一m缸足(j,口)l
其中,0≤tz<110≤矗s1,分别为行为值函数和平均性能指
标的迭代学习率;
④令j÷_j’;
⑤下一时刻t+l返回2重复执行.
2.2泛化和函数逼近
这里将电梯群组虚拟仿真环境作为平均报酬强化学习
算法的验证平台。由于电梯群控系统拥有巨大的状态空间,
应用表格的形式存储行为值函数不可行,这里采用RBF神
经网络作为泛化和函数逼近方法。
RBF神经网络拓扑图如图l所示。RBF网络从输入层
空间到隐层空间的变换是非线性的,而从隐层空间到输出层
空间的变换则是线性的,这是一种前馈网络的拓扑结构。输
入层到隐层的权值矩阵Ww都为1,隐层单元输出函数为;
螂)-e叫一%笋川=lt2.。m
(6)
其中.X为n维输入向量;c为隐层第i个高斯函数的中
心,与X具有相同维数;q是第i个隐单元的归一化参数,
即为高斯函数的宽度;m是隐层单元的个数;IIx—oII是向
量x—日的范数,表示x和q之间的距离,蜀(x)在q处有
一个唯一的最大值,随着¨X—cl U的增大,冠(x)迅速衰减
到零。RBF网络的输出为:
∑wf墨(x)
,(x)=号一
(7)
∑RdX)
wj是从第i个隐单元到输出单元的连接权。RBF神经网
络的训练包括高斯函数的中心cj和宽度仉,隐层到输出层
的权值Wuo,采用一种基于最近邻聚类的学习算法来进行网
络的在线训练【埘。该算法是一种在线自适应聚类学习算法,
不需要事先确定隐层神经元的个数,只需确定宽度西的大小。
圈1
RBF神经网络拓扑圈
3基于平均报酬强化学习的电梯群组调度
将电梯群控系统视为多个智能体,根据由R.1earmng的
万方数据