background image

第19卷第2l期

2007年11月

Voll9No 21

宗群,等:基于平均报酬强化学习的电梯群组调度研究

Nov,2007

平均报酬强化学习算法获得的派梯策略,每个智能体控制一

台电梯的运行。选取乘客的平均候梯时间作为报酬函数,更

确切地说,应该称为成本函数,因为系统的目标是最小化乘

客的平均候梯时间,即让乘客发出呼梯信号后能够在最短的

时间内乘用电梯。采用RBF神经网络存储行为值函数,RBF

神经网络的输入层具有多个输入单元,这里分别表示系统的

状态s.包括响应层站呼叫的电梯的运行方向、当前位置以

及其他电梯的位置:还包括候梯乘客数量在各层分布情况;

输出层具有一个输出单元,表示相应的行为值函数。分别采

用多个智能体共用相同的神经网络和每个智能体拥有独立

的神经网络两种不同的实现方法。无论哪种情形,智能体都

不能显式地获得其他智能体的行为,只有通过全局的强化信

号.各个智能体才能学习相互合作。算法的整体结构见圈2

所示。

图2基于平均报酬强化学习的电梯群组调度算法结构图

下面给出基于平均报酬强化学习的电梯群组调度算法

的一般描述:

①令净l,初始化RBF神经网络,从文件中读取RBF

神经网络的各个参数值;

②计算立即报酬r(sr-I.at.・);

③观察f时刻电梯群控系统所处状态最,得到非满载

可行的电梯号集台A,将状态一行为对(县,4)代入神经网

络,前向计算r。?!月(s,a);

④根据g.-Gree由行为选择策略确定派梯号岛:

⑤根据R-learning的平均报酬强化学习算法更新

R(4…at-):

R(丑…1 a_)÷-置(斗mat

1)+吼r(耻㈨a—I)一p+

maxR(s,d)一R(J,¨a

I)1

*^

如果若更新后的R(¥t-i,az_,)为该状态的最大行为值,

即冗(曲-t.函+-)=m缸詹(轧I,a),则按下式更新平均性能指标

值函数:

∥÷-p+fl[r,一P+maxR(s,,a)-maxR(丑_,口)】.

ⅡE^

*~

⑥根据R(st_,q+。)和st—l,at一1更新RBF神经网络;

⑦ⅡI一1÷一口¨毋一l

6-St,R(品一l~a

1)6-月(品,岛),

⑧判断是否服务完所有乘客,若否,则返回2;

⑨将神经网络参数存入文件,结束。.

4仿真验证

4.1参数设定

在电梯虚拟仿真环境下,仿真参数的设定:

大楼及电梯环境参数:

大楼参数:16层,门厅高度4米,其余楼层3米;

电梯参数:4部电梯,每部电梯额定速度2.5米,秒;

加速度1粕秒2加加速度1.8粕_秒3,额定容量12人;

开关门时间4秒,单个乘客转移时间1秒。

交通流参数:

交通流l;上高峰模式10分钟100人,流入模式70%。

交通流2:下高峰模式lo分钟100人,流出模式70%。

算法参数:

平均报酬强化学习算法参数:学习率口=095,日=0.03;

f_(;.reedy行为选择策略参数:£=0.30。

符号含义:‘

SECTOR表示静态分区调度方法;

AGENT表示基于多智能体协作、协调的调度方法;

RLp表示多个智能体共用相同的神经网络的平均报酬

强化学习调度方法;

RLA表示每个智能体拥有独立的神经网络的平均报酬

强化学习调度方法.

4.2算法比较

电梯群组调度问题的最优策略是未知的,这里将平均报

酬强化学习调度算法与两种典型的调度算法进行比较,即静

态分区调度方澍珂和基于多智能体协作、协调的调度方法㈣。

静态分区调度方法是电梯群组调度中一种常见的分区

调度方法。根据电梯台数和建筑物层数将电梯划分为固定的

运行区域,调度一组轿厢服务于通常毗邻的楼层,各部电梯

仅响应本分区内的服务请求,这里将16层大楼平均分为4

个区域,每部电梯负责服务一个区域。

基于多智能体协作、协调的调度方法将每台电梯作为一

个智能体,每个智能体能够进行计算、推理和决策。通过事

先制定单个智能体局部规划原则以及多智能体间相互合作

的协调机制从T『ji完成派梯。

这里针对给定持续时间的特定交通流,分别采用多个智

能体共用相同的神经网络和每个智能体拥有各自独立的神

经网络两种不同的实现方法进行反复训练。针对交通流l和

交通流2.两种不同实现方}击的平均报酬强化学习调度方法

在电梯群组虚拟仿真环境中反复学习100杂次,仿真结果如

表1、表2所示:

衰1谓度算法在变通流1下的仿真结果

墨莲

堡竖盟塑!壁2

些墨堕凹!壁2

苎堕型垡璺垩

SECTOR

43.46

8233

028

AGENT

24 66

69

56

n10

P.Lp

21 78

7045

0.08

RLA

21 37

7017

007

 

万方数据