background image

第19卷第21期

2007年11月

系统仿真学报

Ⅷ19No

21

Nov.2007

究强化学习算法的基本框架。MDP模型可以用一个四元组

来描述,肘={s,Ar,脚嘲。其中:S为状态空间;A为行

动空间;T:Sxa-->l'1r.S)为状态转移函数;R:s×A枷为

报酬函数。系统的日标是获得最优策略矿,使得性能指标

的累积报酬和最大。

平均报酬MDP与折扣报酬MDP模型要素的定义相同,

两者只是在性能指标值函数的定义上有所不同。

在折扣报酬MDP中性能指标定义为在状态j执行策略

痄,在后续无限时间区间内获得的折扣报酬的和的期望值。即,

,Ⅳ一I

∥(s)2舰Ei∑,砰(,)I

(1)

\F2u

其中,O<Y<1为折扣因子,群(j)为在t时刻,给定状态s,

执行策略石所获得的立即报酬。

在平均报酬MDP中性能指标定义为在状态J执行策略

石,在后续无限时间区间内获得的报酬和的平均期望值。即,

硝加~limIⅣE(委N-I舶))

其中,矿(s)表示在状态j执行策略口的平均报酬。假设各个

状态是遍历的,则策略石的平均报酬是不依赖于状态J的

[51,即

,(砷=矿(y)=矿

(3)

对于单链平均报酬MDP存在唯一的标量P’和函数

矿m,对于所有的状态j,满足以下Bellman最优性方程田,

V’(J)+,=m”(,(j,4)+∑B(s.4y’(J’))

(4)

J_

其中.V・∽为状态s在最优策略下的相对值函数,P‘为最

优平均报酬。求解平均报酬MDP的目标是找到策略石’,使

得智能体可以获得最优平均报酬,即P‘=口,,对于所有策

略石,满足p7(J)≥P,(5)。

2平均报酬强化学习

2.1

R-learnlng

Schwartz提出R-learning的平均报酬强化学习算法口l,

与Q.1earning的折扣报酬强化学习算法相类似,R-learning

的平均报酬强化学习算法也是利用行为值函数进行求解的,

这里记为矿(J,Ⅱ),表示在状态j下选择行为口,后续策略

保持为石的平均调整值,定义式如下,

R。(")2

r(s,口)一P’+二匕・(口’盟:月4(J’,口)

(5)

其中,口-为策略石的平均报酬,即平均性能指标,求解的

目标是寻找使得矿最优的策略。

R—learning的迭代过程包括两部分,即对行为值函数的

迭代和对平均性能指标的迭代。这两种迭代的时间尺度是不

同的:在每个时刻,对行为值函数进行迭代,当满足一定的

条件时,才对平均性能指标进行迭代,具体的算法流程如下圆:

①令t=0,对于当前的状态s,初始化所有的冠(sga);

②按照某种探索性的行为选择策略选择行为口.使行

为值函数蜀(J,口)最大;

③执行行为a,进入状态s。,计算报酬函数r(s,d),

按照以下规则更新行为值函数R(j,a)和平均报酬P:

冠““口)<--冠(j,a)+afr(s,a)一p+rn戤冠(s。,口)一R(j,4)】

若更新后的R+。(以a)为该状态的最大行为值,即

R+1(J,Ⅱ)=maxR(s,a),则对报酬函数P进行更新:

n+1÷_n+所r(s。4)一n+max足(J’.d)一m缸足(j,口)l

其中,0≤tz<110≤矗s1,分别为行为值函数和平均性能指

标的迭代学习率;

④令j÷_j’;

⑤下一时刻t+l返回2重复执行.

2.2泛化和函数逼近

这里将电梯群组虚拟仿真环境作为平均报酬强化学习

算法的验证平台。由于电梯群控系统拥有巨大的状态空间,

应用表格的形式存储行为值函数不可行,这里采用RBF神

经网络作为泛化和函数逼近方法。

RBF神经网络拓扑图如图l所示。RBF网络从输入层

空间到隐层空间的变换是非线性的,而从隐层空间到输出层

空间的变换则是线性的,这是一种前馈网络的拓扑结构。输

入层到隐层的权值矩阵Ww都为1,隐层单元输出函数为;

螂)-e叫一%笋川=lt2.。m

(6)

其中.X为n维输入向量;c为隐层第i个高斯函数的中

心,与X具有相同维数;q是第i个隐单元的归一化参数,

即为高斯函数的宽度;m是隐层单元的个数;IIx—oII是向

量x—日的范数,表示x和q之间的距离,蜀(x)在q处有

一个唯一的最大值,随着¨X—cl U的增大,冠(x)迅速衰减

到零。RBF网络的输出为:

∑wf墨(x)

,(x)=号一

(7)

∑RdX)

wj是从第i个隐单元到输出单元的连接权。RBF神经网

络的训练包括高斯函数的中心cj和宽度仉,隐层到输出层

的权值Wuo,采用一种基于最近邻聚类的学习算法来进行网

络的在线训练【埘。该算法是一种在线自适应聚类学习算法,

不需要事先确定隐层神经元的个数,只需确定宽度西的大小。

圈1

RBF神经网络拓扑圈

3基于平均报酬强化学习的电梯群组调度

将电梯群控系统视为多个智能体,根据由R.1earmng的

 

万方数据