第１９卷第２１期

系统仿真学报＠

ｖ０１

１９№２１

罂竺兰！！！

！！！竺！！丝！！墼竺！！竺！！丝！呈

竺：；：坚

基于平均报酬强化学习的电梯群组调度研究

宗群，孙正雅。宋超峰

（夭津大学电气与自动化工程学院．天津３０６０７２）

摘要：针对电梯群控系统．建立基于平均报酬强化学习的优化调度模型。采用Ｒ．１ｅａｒｎｉｎｇ的平

均报酬强化学习求解算法，在分析电梯群组调度问题特点的基础上，利用径向基函数神经网络解

决行为值函数的存储与泛化问题，并结合电梯群组虚拟仿真环境进行验证。通过与两种典型的电

梯群组调度算法进行比较，展示了平均报酬强化学习算法在处理具有吸收目标状态的大规模随机

序贯决采问题的有效性度可行性。

关键词：强化学习；Ｒ—ｌｅａｒｎｉｎｇ；电梯群组调度

中圈分类号：ＴＰ３９１．９

文献标识码，Ａ

离散事件动态系统

文章编号ｌ

１００４－７３１Ｘ（２００７）２１－４９４５－０４

ＲｅｓｅａｒｃｈｏｆＥｌｅｖａｔｏｒＧｒｏｕｐＳｃｈｅｄｕｌｉｎｇ

Ｂａｓｅｄ

ｏｎ

ＡｖｅｒａｇｅＲｅｗａｒｄ

Ｒｅｉｎｆｏｒｃｅｍｅｎｔ

Ｌｅａｒｎｉｎｇ

ｚｏＮＧ

Ｑｕｎ，ＳＵＮ

Ｚｈｅｎｇ－ｙａ，ＳＯＮＧ

Ｃｈａｏ母ｎｇ

（Ａｃａｄｅｍｙ

ｏｆＥｌ∞ｍｃａｌＥｎｇｉⅡ。ｃｉｉｎｇ＆Ａｕｔｏｍａｆｉｏｎ．ａａ叽ｊｉｎＵｎｉｖｅｒｓｉｔｙ，ｍ叽ｊｍ３０００７２，Ｃｈｉｎａ）

』

Ａｂｓｔｒａｃｔ：Ｔｈｅｓｙｓｔｅｍ

ｏｆｅｌｅｖａｍｒｇｒｏｕｐ

ｓｃｈｅｄｕｌｉｎｇ

ｗａｓｆｏｒｍｕｌａｔｅｄｂｙｔｈｅｆｒａｍｅｗｏｒｋｏｆｔｈｅ

ａｖｅｒａｇｅｒｅｗａｒｄ

ｒｅｉｎｆｏｒｃｅｍｅｎｔ

ｌｅａｒｎｉｎｇ，ｔｏ

ｗｈｉｃｈｔｈｅａｖｅｒａｇｅｒｅｗａｒｄＲＬａｌｇｏｒｉｔｈｍ，Ｌｅ．Ｒ・ｌｅａｒｎｉｎｇ，ｗａｓａｐｐｌｉｅｄ．Ｏｎｔｈｅｂａｓｉｓｏｆａｎａｌｙｚｉｎｇｔｈｅ

ｆｉｅｌｄ．ｒａｄｉａｌ

ｂａｓｉｃｆｕｎｃｔｉｏｎ

ｎｅｕｒａｌｎｅｔｗｏｒｋ

Ｗａｓ

ｕｓｅｄ

ｔｏ

ｄｅａｌｗｉｔｈｔｈｅｓｔｏｒａｇｅａｎｄｇｅｎｅｒａｌｉｚａｔｉｏｎｏｆａｃｔｉｏｎｖａｌｕｅｆｕｎｃｔｉｏｎｓ．Ｔｈｅｓｉｍｕｌａｔｉｏｎ

ｅｘｐｅ血Ｔｌ哪ｗａｇ＿【ｅｓｔｅｄｉｎｔｈｅｖｉｔ乜ｌａｌ

ｅｎｖａｘｍｍｅｍｆｏｒ

ｅｌｅｖａｔｏｒｇｒｏｕｐ

ｓｃｈｅｄｕｌｉｎｇ．ＴｈｅＰｅ五啊ＩⅡ趾ｃｅｏｆＲ－ｌｅ，ｍｎｉｎｇｗａｓ

ｃｏｍｐ辩ｄｗｉｔｈ

ｔＷＯｔｙｐｉｃａｌｃｌａｓｓｅｓｏｆ

ｅｌｅｖｍｒ

ｇｒｏｕｐ

ｓｃｈｅｄｕｌｉｎｇａｌｇｏｒｉｔｈｍｓ．Ｔｈｅ

ｒｅｓｕｌｔｓｓｕｇｇｅｓｔｔｈｅｐｏｗｅｒｏｆａｖｅｒａｇｅｒｅｗａｒｄ

ｒｅｉｎｆｏｒｃｅｍｅｎｔ

ｌｅａｒｎｉｎｇ

Ｏｉｌａ

ｖｅｒｙｌａｒｇｅｓｃａｌｅｓｔｏｃｈａｓｔｉｃｓｅｑｕｅｎｔｉａｌｄｅｃｉｓｉｏｎ

ｐｒｏｂｌｅｍ

ｏｆｐｒａｃｔｉｃａｌ

ｕｔｉｌｉｔｙｗｉｔｈａｂｓｏｒｂｉｎｇｇｏａｌ

ｓｔａｔｅｓ．

Ｋｅｙｗｏｒｄｓ：ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ；Ｒ—ｌｅａｒｎｉｎｇ；ｅｌｅｖａｔｏｒｇｒｏｕｐ

ｓｃｈｅｄｕｌｉｎｇ；ｄｉｓｃｒｅｔｅ

ｅｖｅｎｔ

ｄｙｎａｍｉｃｓｙｓｔｅｍｓ

引言

电梯群控系统是典型的离散事件动态系统（Ｄｉｓｃｒｅｔｅ

ＥｖｅｎｔＤｙｎａｍｉｃ

Ｓｙｓｔｅｍｓ，简称ＤＥＤＳ）ｔ”，乘客的到达事件和

轿厢的到达事件影响系统状态的不断改变。电梯群控系统对

系统状态的观测可以分为两种方式：时间驱动型和事件驱动

型。在时间驱动型情况下，即群控器定时观测系统状态并选

择派梯策略．可以将电梯调度问题作为马尔可夫决策过程

（Ｍａｒｋｏｖ

Ｄｅｃｉｓｉｏｎ

Ｐｒｏｃｅｓｓ，简称ＭＤＰ）ｌｈｑ题进行研究８ｌ，同时

利用强化学习算法进行求解。进一步地，如果将整个电梯群

视为多个智能体，每个智能体选择一种控制策略来负责一台

ｋ

电梯的运行，则电梯群组调度问题可｜三Ｉ作为多智能体强化学

习问题进行研究”Ｊ。

根据性能指标值函数的不同，强化学习可以分为折扣报

酬强化学习和平均报酬强化学习【４】。性能指标值函数是应用

强化学习方法求解优化问题的关键，不同形式的性能指标值

函数将产生不同的调度结果口】。

折扣报酬强化学习适用于累积报酬和为无界的强化学

收藕日期Ｉ

２００６－０８．２３

肇回日期ｌ

２００７－０１．１０

基金项目Ｉ国家自然科学基金（６０５７４０５５）；教育部博士点基金资助项目

（２００５００５６０３７）

作者简介ｌ宗群（１９６１一），男，天津人．博士，教授，博导，研究方向为计

算机与智能控制系统，智能电梯群拉系统：孙正雅（１９８２－）．女，河北遵化
人．研究生．研究方向为强化学习与优化调度算法．

习任务，例如机器人躲避障碍【６】，或者自动导向运输设备服

务多个队列”】。然而折扣报酬强化学习可能导致智能体优先

选择在短期内产生普通报酬的策略，而忽视可以获取长期更

多报酬的策略，也就是说折扣报酬强化学习的求解算法容易

陷入局部最优口】；平均报酬强化学习的目标是在每个时刻选

择可以在无限阶段获得最优平均报酬的策略，因此适用于具

有吸收目标状态的强化学习任务，也就是说使智能体以最优

的平均性能指标到达给定目标状态的情形。对于给定持续时

间的特定交通流，电梯群控系统的目标状态可以认为是空闲

状态，即系统服务完该时间段内到达的所有乘客。

本文将电梯群控系统视为相互合作的多个强化学习智

能体，每个智能体根据平均报酬强化学习调度算法控制一台

电梯的运行，由于电梯群控系统的状态空间巨大，采用径向

基函数（Ｒａｄｉａｌ

Ｂａｓｉｓ

Ｆｕｎｃｔｉｏｎ，简称ＲＢＦ）神经网络存储状态．

行为值函数，分别采用多个智能体共用相同的神经网络和每

个智能体具有独立的神经网络两种不同的实现方法。尽管电

梯群控系统拥有庞大的状态空间，并且状态信息不能完全观

测得到．例如系统候梯乘客的到达楼层和期望方向是已知的

然而日的楼层未知，基于平均报酬强化学习的控制策略仍然

可以获得满意的调度结果。

１平均报酬马尔可夫决策过程

ＭＤＰ是多阶段随机序贯决策问题的重要模型，也是研

万方数据