王艳WANGYan
(兰州职业技术学院,兰州730070)
(LanzhouVocationalTechnicalCollege,Lanzhou730070,China)
摘要:本文将追捕-逃跑问题按空间、时间离散化后转为一个对策模型,并利用Matlab软件,采用栅格建模的方法来模拟仿真环境,对四个追捕机器人追捕一个目标机器人的实例进行了仿真。通过仿真发现了该支付函数的缺陷。基于此原因,重新定义了局中人的支付函数,通过衰减因子滋,在追捕的不同阶段,根据追捕的具体情况灵活地调整距离影响系数和有效包围系数的权重,从而提高了追捕的效率。
Abstract:Accordingtothediscretizationofspaceandthetime,thispapertransfersthepursuit-evasionproblemintoagamemodel,andusesMatlabsoftwareandgridmodelingmethodtosimulatesimulationenvironment,carriesonsimulationfortheinstanceoffour-pursuitrobotspursueagoal-robot.Thesimulationfoundthedefectsofpaymentfunction.Basedonthisreason,thepaymentfunctionoftheplayersisredefined.Theweightofdistanceinfluencecoefficientandeffectivesurroundedcoefficientcanbeadjustedflexiblyaccordingtothespecificcircumstancesofthechasebytheattenuationfactor"滋"atdifferentstagesofthechase,andtheefficiencyofthepursuitisimproved.
关键词:机器人;对策论;追捕-逃跑问题
Keywords:robot;gametheory;pursuit-evasionproblem
中图分类号院TP242文献标识码院A文章编号院1006-4311(2014)20-0048-02
0引言
多机器人围捕问题是多机器人系统研究中的一个典型问题。它的研究内容包括多机器人控制与协作、对抗策略、实时动态路径规划以及冲突消解等问题。本文主要研究的是多个追捕机器人围捕单个目标机器人的情况。研究的重点是追捕团队捕获单个目标机器人时的最优合作追捕策略。首先给出捕获成功的条件,第一个条件就是目标机器人周围的追捕机器人数量达到了捕获成功所规定数值。第二个条件就是目标机器人已经无路可走了。因此,追捕团队完全可以看成是一种具有联合承诺的纯合作性质的团队[1]。
1围捕问题对策模型的描述
如果将追捕-逃跑双方的动态连续博弈行为按时间t离散化,追捕-逃跑问题就转化成为了一个对策模型。该对策模型具有2个局中人,一个是追捕机器人,一个是目标机器人。而且该对策模型是离散的动态模型。这样,每个时刻机器人的行为动作决策就可转化为支付矩阵。通过求解支付矩阵,就可以得到最优的策略[2]。
智能体集合是指追捕-逃跑问题中的所有机器人的集合。它分为两大类,一类是追捕机器人,一类是目标机器人。因为追捕机器人团队是一个纯合作性质的团队,所以具有追求集体利益的最大化的集体理性。因此可以将整个追捕机器人团队看作是一个局中人。
环境状态是指全所有机器人的位置信息,而动作集合是指机器人在时刻t所能运动到的所有相邻栅格的集合。
式(3)中,sum{兹i}是指追捕机器人能够控制的范围的总大小,茁是一个常数。由公式可以看出,有效包围系数使得所有追捕机器人更倾向于通过互相合作来围捕目标机器人。
同样的道理,由于追捕机器人与目标机器人的目标是相互对立的,所以两者构成的是零和博弈[4]。
2围捕问题的对策模型的改进
在追逃对策模型中,追捕机器人选择策略的方法是排除法。这种基于悲观原则的保守做法很有可能导致如图1所示的围捕僵持的情况。
图1中白色的扇形区域表示了该追捕机器人控制目标机器人的方向范围。由图1可以看出,追捕机器人群体在进行围捕的过程中,由于有效包围系数k兹的存在,追捕机器人群体就有能力对目标机器人形成包围圈,也就是说,追捕机器人群体已经将目标机器人限制在一个固定区域内。但是,基于悲观原则的追捕机器人都不会心存侥幸的采用冒险的策略,这就导致了一种僵持的情况,如图1所示。
在原来的对策模型中,定义支付函数hDt=棕dks·棕兹k兹,其中棕d、棕兹皆为固定值,在这里,对支付函数hDt进行修改,使其随着时间的延长而变化,对支付函数重新定义如下:
在追捕的初始阶段,包围圈的形成要更重要一些。所以将棕兹设得较大,而棕d设的较小,这样可以使追捕机器人在围捕初始阶段更重视对目标机器人的包围。随着时间的推移,追捕群体会对目标机器人形成一定的包围圈,这时有效包围系数k兹的重要性就降低了,而相应的距离影响系数ks的重要性就会提高。
3围捕问题的仿真
场地是由栅格组成的矩形,追捕机器人有四个,而目标机器人只有1个,并假设追捕-逃跑双方的速度相同,并且双方均为全局视觉,通讯系统都比较理想,要求每次只能移动一个栅格,其初始位置在每次试验开始前随机生成。
图2所示的是一个完整的追捕过程,图2(a)是初始化时追捕机器人、目标机器人的位置,也就是实验开始前随机生成的初始位置。图2(b)是追捕-逃跑刚开始进行时的状态图,图2(c)是追捕开始一段时间后,追捕机器人已经对目标机器人形成了围捕圈,图2(d)是捕捉者已经成功捕捉到目标机器人的状态图。
参考文献:
[1]谢政.对策论[M].国防科学技术大学出版社,2004.
[2]张海英,刘祚时,林桂娟.群体机器人研究的现状和发展[J].电子技术应用,2010(30).
[3]李智军等.基于群体协作的分布式群体机器人通信系统的设计与实现[J].机器人,2010(22).
[4]周浦城,洪炳铭.基于对策论的群机器人追捕-逃跑问题研究[J].哈尔滨工业大学学报,2007(9).