background image

第19卷第21期

系统仿真学报@

v01

19№21

罂竺兰!!!

!!!竺!!丝!!墼竺!!竺!!丝!呈

竺:;:坚

基于平均报酬强化学习的电梯群组调度研究

宗群,孙正雅。宋超峰

(夭津大学电气与自动化工程学院.天津306072)

摘要:针对电梯群控系统.建立基于平均报酬强化学习的优化调度模型。采用R.1earning的平

均报酬强化学习求解算法,在分析电梯群组调度问题特点的基础上,利用径向基函数神经网络解

决行为值函数的存储与泛化问题,并结合电梯群组虚拟仿真环境进行验证。通过与两种典型的电

梯群组调度算法进行比较,展示了平均报酬强化学习算法在处理具有吸收目标状态的大规模随机

序贯决采问题的有效性度可行性。

关键词:强化学习;R—learning;电梯群组调度

中圈分类号:TP391.9

文献标识码,A

离散事件动态系统

文章编号l

1004-731X(2007)21-4945-04

Research of Elevator Group Scheduling

Based

on

Average Reward

Reinforcement

Learning

zoNG

Qun,SUN

Zheng-ya,SONG

Chao母ng

(Academy

ofEl∞mcalEngiⅡ。ciing&Automafion.aa叽jinUniversity,m叽jm 300072,China)

Abstract:The system

ofelevamrgroup

scheduling

wasformulated bytheframeworkofthe

average reward

reinforcement

learning,to

which the average reward RL algorithm,Le.R・learning,was applied.On the basis of analyzing the

field.radial

basic function

neural network

Was

used

to

deal with the storage and generalization of action value functions.The simulation

expe血Tl哪wag_【estedinthevit乜lal

envaxmmemfor

elevator group

scheduling.The Pe五啊IⅡ趾ceofR-le,mningwas

comp辩dwith

tWO typical classes of

elevmr

group

scheduling algorithms.The

results suggest the power of average reward

reinforcement

learning

Oil a

very large scale stochastic sequential decision

problem

ofpractical

utility with absorbing goal

states.

Keywords:reinforcementlearning;R—learning;elevatorgroup

scheduling;discrete

event

dynamic systems

引言

电梯群控系统是典型的离散事件动态系统(Discrete

Event Dynamic

Systems,简称DEDS)t”,乘客的到达事件和

轿厢的到达事件影响系统状态的不断改变。电梯群控系统对

系统状态的观测可以分为两种方式:时间驱动型和事件驱动

型。在时间驱动型情况下,即群控器定时观测系统状态并选

择派梯策略.可以将电梯调度问题作为马尔可夫决策过程

(Markov

Decision

Process,简称MDP)lhq题进行研究8l,同时

利用强化学习算法进行求解。进一步地,如果将整个电梯群

视为多个智能体,每个智能体选择一种控制策略来负责一台

电梯的运行,则电梯群组调度问题可|三I作为多智能体强化学

习问题进行研究”J。

根据性能指标值函数的不同,强化学习可以分为折扣报

酬强化学习和平均报酬强化学习【4】。性能指标值函数是应用

强化学习方法求解优化问题的关键,不同形式的性能指标值

函数将产生不同的调度结果口】。

折扣报酬强化学习适用于累积报酬和为无界的强化学

收藕日期I

2006-08.23

肇回日期l

2007-01.10

基金项目I国家自然科学基金(60574055);教育部博士点基金资助项目

(20050056037)

作者简介l宗群(1961一),男,天津人.博士,教授,博导,研究方向为计

算机与智能控制系统,智能电梯群拉系统:孙正雅(1982-).女,河北遵化
人.研究生.研究方向为强化学习与优化调度算法.

习任务,例如机器人躲避障碍【6】,或者自动导向运输设备服

务多个队列”】。然而折扣报酬强化学习可能导致智能体优先

选择在短期内产生普通报酬的策略,而忽视可以获取长期更

多报酬的策略,也就是说折扣报酬强化学习的求解算法容易

陷入局部最优口】;平均报酬强化学习的目标是在每个时刻选

择可以在无限阶段获得最优平均报酬的策略,因此适用于具

有吸收目标状态的强化学习任务,也就是说使智能体以最优

的平均性能指标到达给定目标状态的情形。对于给定持续时

间的特定交通流,电梯群控系统的目标状态可以认为是空闲

状态,即系统服务完该时间段内到达的所有乘客。

本文将电梯群控系统视为相互合作的多个强化学习智

能体,每个智能体根据平均报酬强化学习调度算法控制一台

电梯的运行,由于电梯群控系统的状态空间巨大,采用径向

基函数(Radial

Basis

Function,简称RBF)神经网络存储状态.

行为值函数,分别采用多个智能体共用相同的神经网络和每

个智能体具有独立的神经网络两种不同的实现方法。尽管电

梯群控系统拥有庞大的状态空间,并且状态信息不能完全观

测得到.例如系统候梯乘客的到达楼层和期望方向是已知的

然而日的楼层未知,基于平均报酬强化学习的控制策略仍然

可以获得满意的调度结果。

1平均报酬马尔可夫决策过程

MDP是多阶段随机序贯决策问题的重要模型,也是研

 

万方数据