第19卷第2l期
2007年11月
Voll9No 21
宗群,等:基于平均报酬强化学习的电梯群组调度研究
Nov,2007
平均报酬强化学习算法获得的派梯策略,每个智能体控制一
台电梯的运行。选取乘客的平均候梯时间作为报酬函数,更
确切地说,应该称为成本函数,因为系统的目标是最小化乘
客的平均候梯时间,即让乘客发出呼梯信号后能够在最短的
时间内乘用电梯。采用RBF神经网络存储行为值函数,RBF
神经网络的输入层具有多个输入单元,这里分别表示系统的
状态s.包括响应层站呼叫的电梯的运行方向、当前位置以
及其他电梯的位置:还包括候梯乘客数量在各层分布情况;
输出层具有一个输出单元,表示相应的行为值函数。分别采
用多个智能体共用相同的神经网络和每个智能体拥有独立
的神经网络两种不同的实现方法。无论哪种情形,智能体都
不能显式地获得其他智能体的行为,只有通过全局的强化信
号.各个智能体才能学习相互合作。算法的整体结构见圈2
所示。
图2基于平均报酬强化学习的电梯群组调度算法结构图
下面给出基于平均报酬强化学习的电梯群组调度算法
的一般描述:
①令净l,初始化RBF神经网络,从文件中读取RBF
神经网络的各个参数值;
②计算立即报酬r(sr-I.at.・);
③观察f时刻电梯群控系统所处状态最,得到非满载
可行的电梯号集台A,将状态一行为对(县,4)代入神经网
络,前向计算r。?!月(s,a);
④根据g.-Gree由行为选择策略确定派梯号岛:
⑤根据R-learning的平均报酬强化学习算法更新
R(4…at-):
R(丑…1 a_)÷-置(斗mat
1)+吼r(耻㈨a—I)一p+
maxR(s,d)一R(J,¨a
I)1
*^
如果若更新后的R(¥t-i,az_,)为该状态的最大行为值,
即冗(曲-t.函+-)=m缸詹(轧I,a),则按下式更新平均性能指标
值函数:
∥÷-p+fl[r,一P+maxR(s,,a)-maxR(丑_,口)】.
ⅡE^
*~
⑥根据R(st_,q+。)和st—l,at一1更新RBF神经网络;
⑦ⅡI一1÷一口¨毋一l
6-St,R(品一l~a
1)6-月(品,岛),
⑧判断是否服务完所有乘客,若否,则返回2;
⑨将神经网络参数存入文件,结束。.
4仿真验证
4.1参数设定
在电梯虚拟仿真环境下,仿真参数的设定:
大楼及电梯环境参数:
大楼参数:16层,门厅高度4米,其余楼层3米;
电梯参数:4部电梯,每部电梯额定速度2.5米,秒;
加速度1粕秒2加加速度1.8粕_秒3,额定容量12人;
开关门时间4秒,单个乘客转移时间1秒。
交通流参数:
交通流l;上高峰模式10分钟100人,流入模式70%。
交通流2:下高峰模式lo分钟100人,流出模式70%。
算法参数:
平均报酬强化学习算法参数:学习率口=095,日=0.03;
f_(;.reedy行为选择策略参数:£=0.30。
符号含义:‘
SECTOR表示静态分区调度方法;
AGENT表示基于多智能体协作、协调的调度方法;
RLp表示多个智能体共用相同的神经网络的平均报酬
强化学习调度方法;
RLA表示每个智能体拥有独立的神经网络的平均报酬
强化学习调度方法.
4.2算法比较
电梯群组调度问题的最优策略是未知的,这里将平均报
酬强化学习调度算法与两种典型的调度算法进行比较,即静
态分区调度方澍珂和基于多智能体协作、协调的调度方法㈣。
静态分区调度方法是电梯群组调度中一种常见的分区
调度方法。根据电梯台数和建筑物层数将电梯划分为固定的
运行区域,调度一组轿厢服务于通常毗邻的楼层,各部电梯
仅响应本分区内的服务请求,这里将16层大楼平均分为4
个区域,每部电梯负责服务一个区域。
基于多智能体协作、协调的调度方法将每台电梯作为一
个智能体,每个智能体能够进行计算、推理和决策。通过事
先制定单个智能体局部规划原则以及多智能体间相互合作
的协调机制从T『ji完成派梯。
这里针对给定持续时间的特定交通流,分别采用多个智
能体共用相同的神经网络和每个智能体拥有各自独立的神
经网络两种不同的实现方法进行反复训练。针对交通流l和
交通流2.两种不同实现方}击的平均报酬强化学习调度方法
在电梯群组虚拟仿真环境中反复学习100杂次,仿真结果如
表1、表2所示:
衰1谓度算法在变通流1下的仿真结果
墨莲
堡竖盟塑!壁2
些墨堕凹!壁2
苎堕型垡璺垩
SECTOR
43.46
8233
028
AGENT
24 66
69
56
n10
P.Lp
21 78
7045
0.08
RLA
21 37
7017
007
万方数据