第１９卷第２ｌ期

２００７年１１月

Ｖｏｌｌ９Ｎｏ２１

宗群，等：基于平均报酬强化学习的电梯群组调度研究

Ｎｏｖ，２００７

平均报酬强化学习算法获得的派梯策略，每个智能体控制一

台电梯的运行。选取乘客的平均候梯时间作为报酬函数，更

确切地说，应该称为成本函数，因为系统的目标是最小化乘

客的平均候梯时间，即让乘客发出呼梯信号后能够在最短的

时间内乘用电梯。采用ＲＢＦ神经网络存储行为值函数，ＲＢＦ

神经网络的输入层具有多个输入单元，这里分别表示系统的

状态ｓ．包括响应层站呼叫的电梯的运行方向、当前位置以

及其他电梯的位置：还包括候梯乘客数量在各层分布情况；

输出层具有一个输出单元，表示相应的行为值函数。分别采

用多个智能体共用相同的神经网络和每个智能体拥有独立

的神经网络两种不同的实现方法。无论哪种情形，智能体都

不能显式地获得其他智能体的行为，只有通过全局的强化信

号．各个智能体才能学习相互合作。算法的整体结构见圈２

所示。

图２基于平均报酬强化学习的电梯群组调度算法结构图

下面给出基于平均报酬强化学习的电梯群组调度算法

的一般描述：

①令净ｌ，初始化ＲＢＦ神经网络，从文件中读取ＲＢＦ

神经网络的各个参数值；

②计算立即报酬ｒ（ｓｒ－Ｉ．ａｔ．・）；

③观察ｆ时刻电梯群控系统所处状态最，得到非满载

可行的电梯号集台Ａ，将状态一行为对（县，４）代入神经网

络，前向计算ｒ。？！月（ｓ，ａ）；

④根据ｇ．－Ｇｒｅｅ由行为选择策略确定派梯号岛：

⑤根据Ｒ－ｌｅａｒｎｉｎｇ的平均报酬强化学习算法更新

Ｒ（４…ａｔ－）：

Ｒ（丑…１ａ＿）÷－置（斗ｍａｔ

１）＋吼ｒ（耻㈨ａ—Ｉ）一ｐ＋

ｍａｘＲ（ｓ，ｄ）一Ｒ（Ｊ，¨ａ

Ｉ）１

＊＾

如果若更新后的Ｒ（￥ｔ－ｉ，ａｚ＿，）为该状态的最大行为值，

即冗（曲－ｔ．函＋－）＝ｍ缸詹（轧Ｉ，ａ），则按下式更新平均性能指标

值函数：

∥÷－ｐ＋ｆｌ［ｒ，一Ｐ＋ｍａｘＲ（ｓ，，ａ）－ｍａｘＲ（丑＿，口）】．

ⅡＥ＾

＊～

⑥根据Ｒ（ｓｔ＿，ｑ＋。）和ｓｔ—ｌ，ａｔ一１更新ＲＢＦ神经网络；

⑦ⅡＩ一１÷一口¨毋一ｌ

６－Ｓｔ，Ｒ（品一ｌ～ａ

１）６－月（品，岛），

⑧判断是否服务完所有乘客，若否，则返回２；

⑨将神经网络参数存入文件，结束。．

４仿真验证

４．１参数设定

在电梯虚拟仿真环境下，仿真参数的设定：

大楼及电梯环境参数：

大楼参数：１６层，门厅高度４米，其余楼层３米；

电梯参数：４部电梯，每部电梯额定速度２．５米，秒；

加速度１粕秒２加加速度１．８粕＿秒３，额定容量１２人；

开关门时间４秒，单个乘客转移时间１秒。

交通流参数：

交通流ｌ；上高峰模式１０分钟１００人，流入模式７０％。

交通流２：下高峰模式ｌｏ分钟１００人，流出模式７０％。

算法参数：

平均报酬强化学习算法参数：学习率口＝０９５，日＝０．０３；

ｆ＿（；．ｒｅｅｄｙ行为选择策略参数：￡＝０．３０。

符号含义：‘

ＳＥＣＴＯＲ表示静态分区调度方法；

ＡＧＥＮＴ表示基于多智能体协作、协调的调度方法；

ＲＬｐ表示多个智能体共用相同的神经网络的平均报酬

强化学习调度方法；

ＲＬＡ表示每个智能体拥有独立的神经网络的平均报酬

强化学习调度方法．

４．２算法比较

电梯群组调度问题的最优策略是未知的，这里将平均报

酬强化学习调度算法与两种典型的调度算法进行比较，即静

态分区调度方澍珂和基于多智能体协作、协调的调度方法㈣。

静态分区调度方法是电梯群组调度中一种常见的分区

调度方法。根据电梯台数和建筑物层数将电梯划分为固定的

运行区域，调度一组轿厢服务于通常毗邻的楼层，各部电梯

仅响应本分区内的服务请求，这里将１６层大楼平均分为４

个区域，每部电梯负责服务一个区域。

基于多智能体协作、协调的调度方法将每台电梯作为一

个智能体，每个智能体能够进行计算、推理和决策。通过事

先制定单个智能体局部规划原则以及多智能体间相互合作

的协调机制从Ｔ『ｊｉ完成派梯。

这里针对给定持续时间的特定交通流，分别采用多个智

能体共用相同的神经网络和每个智能体拥有各自独立的神

经网络两种不同的实现方法进行反复训练。针对交通流ｌ和

交通流２．两种不同实现方｝击的平均报酬强化学习调度方法

在电梯群组虚拟仿真环境中反复学习１００杂次，仿真结果如

表１、表２所示：

衰１谓度算法在变通流１下的仿真结果

墨莲

堡竖盟塑！壁２

些墨堕凹！壁２

苎堕型垡璺垩

ＳＥＣＴＯＲ

４３．４６

８２３３

０２８

ＡＧＥＮＴ

２４６６

６９

５６

ｎ１０

Ｐ．Ｌｐ

２１７８

７０４５

０．０８

ＲＬＡ

２１３７

７０１７

００７

万方数据