导读:本文包含了多动态影响图论文开题报告文献综述及选题提纲参考文献,主要关键词:多智能体系统,影响图,序贯决策问题,行为等价
多动态影响图论文文献综述
潘颖慧,曾一锋[1](2018)在《交互式动态影响图研究及其最优K模型解法》一文中研究指出不确定性多智能体序贯决策是人工智能研究领域一个重要的研究问题,主要求解智能体如何在与其他智能体的交互中优化本身的决策.特别在部分可观测的随机博弈设置下,智能体不能探测到真实的外部环境状态,必须依靠所接收的观察来推断可能的状态;同时,智能体的动作也具有相当的随机性,直接影响到其他智能体的决策.智能体的交互主要通过对共同环境状态的影响决定它们各自决策的报酬.因此,如何对多智能体之间的交互进行建模是求解该问题的核心任务.目前大部分的研究主要通过对整个智能体系统进行建模,采取集中规划、分散控制的求解机制:首先,统一计算所有智能体的联合决策;然后,各个智能体执行分配得到的局部决策.该求解技术往往要求所有的智能体必须对全局环境有一个共同的知识假设,因此该研究工作一般只适用于合作型的多智能体系统.相比之下,交互式动态影响图是从个体决策者的角度研究不确定性多智能体序贯决策问题的一种普遍适用的建模方法,克服了传统的博弈论方法求解多智能体决策问题的局限性.求解交互式动态影响图模型的主要困难在于复杂的智能体相互建模过程.特别是在竞争的环境下,由于智能体缺少相互交流的机会,也不能预知其他智能体的真实模型,必须通过预测和推理其他智能体的行为来决定本身的动作.主要求解思路是首先假设其他智能体的可能模型,然后通过求解这些可能的模型来预测智能体的行为.由于其他智能体的备选模型往往有很多,而且随着决策时间的推移,模型的不确定性增强,导致可能的模型呈指数增长,这给求解交互式动态影响图带来了极大的困难.基于目前大量的交互式动态影响图研究工作,文中旨在总结归纳模型的具体表达方式和求解方法,并在此基础上提出一种新的模型求解方法.针对巨大的其他智能体备选模型空间,新方法侧重于研究模型的选取技术,把模型选取问题转化为一个构造最优K模型的函数优化问题.优化的目标是尽量使得选取的K个模型能在最大程度上覆盖整个其他智能体的模型空间.从本质上说,新的函数优化问题具有NP难度.文中通过挖掘目标函数的单调子模特性提出一种贪婪算法以迅速求解该优化问题,并在理论上保证了解的质量.此外,新的求解方法克服了目前近似方法的随机性和参数设置的复杂性.该方法在一个经典计算机游戏领域得到了大量的实验验证,展示了较强的实际应用能力.(本文来源于《计算机学报》期刊2018年01期)
鲁桂芳[2](2016)在《基于交互式动态影响图的决策模型及算法分析》一文中研究指出交互式动态影响图(interactive dynamic influence diagrams)是不确定环境下多Agent(Mult-Agent)序贯决策(Sequential Decision)的图模型[1]。马尔可夫决策过程可以用来描述和处理大规模不确定性环境下的Agent决策问题。本文以马尔可夫决策过程的相关理论为基础,以众多研究者关注的Agent决策为核心,重点分析I-DIDs模型下的求解算法效率。(本文来源于《科技经济导刊》期刊2016年03期)
罗键,武鹤[3](2016)在《基于交互式动态影响图的对手建模》一文中研究指出在充满竞争的环境中,资源有限导致智能体之间存在利益冲突,有必要建立对手模型并对其行为进行准确预测,从而制定对自身有利的策略.利用交互式动态影响图对未知对手进行建模,将对手的候选模型保存在模型节点并随时间更新其信度.结合观测到的对手动作,在模型空间中利用"观察-动作"序列逐步排除候选模型,最终判定对手的真实模型.实验结果表明,所提出的算法取得了很好的效果,验证了该算法的实用性.(本文来源于《控制与决策》期刊2016年04期)
田乐,罗键,曹浪财[4](2014)在《多Agent交互动态影响图的近似行为等价算法》一文中研究指出结合前瞻搜索思想提出了一种判断模型近似行为等价的方法,首先通过比较候选模型的部分解(即策略树)判断模型近似行为等价,然后自上而下对近似行为等价模型进行快速聚类和修剪,利用代表模型将交互式动态影响图扩展成为平铺动态影响图,最后求解平铺动态影响图.算法减少了候选模型的存储空间和运行时间,提高了算法的效率.最后通过多Agent老虎问题及音乐会问题的实验验证了该方法的有效性.(本文来源于《华中科技大学学报(自然科学版)》期刊2014年04期)
田乐,曹浪财[5](2014)在《基于lookahead的交互式动态影响图的DMU改进算法》一文中研究指出区别模型更新(discriminative model update,DMU)是一种常用的求解交互式动态影响图(interactive dynamic influence diagrams,I-DIDs)问题的算法。结合lookahead思想提出了一种判断模型近似行为等价的改进DMU方法。所提方法首先将满足近似行为等价的模型聚类形成代表模型集合,然后自上而下对代表模型进行更新,在模型更新过程中,只更新那些与其他模型预测行为不同的模型。结合lookahead思想提出了一种判断模型近似行为等价的方法。与DMU算法相比,该算法能迅速有效地减少模型的数量,从而减少了计算机的存储空间和运行时间,提高了算法的效率。最后通过对多Agent老虎问题及机器维修问题实验来验证所提方法的有效性。(本文来源于《系统工程与电子技术》期刊2014年06期)
田乐,罗键,曹浪财,陈志平[6](2013)在《基于KL距离的交互式动态影响图近似算法》一文中研究指出交互式动态影响图(interactive dynamic influence diagrams,I-DIDs)状态空间太大,候选模型的数量随时间变化而呈指数倍增长。针对其备受计算量困扰的问题,提出一种利用近似行为等价原理与区别模型更新算法(discriminative model updates,DMU)相结合的近似算法。首先给出了基于Kullback-Leibler(KL)距离模型行为等价和近似行为等价的定义,然后基于KL距离和候选模型的动作对候选模型聚类,自上而下合并策略树形成策略图,最后利用DMU算法进行求解。仿真结果表明,相对于传统的DMU算法,所提近似算法能显着降低候选模型的数量,提高I-DIDs的效率,对I-DIDs的理论及应用研究具有参考价值。(本文来源于《系统工程与电子技术》期刊2013年01期)
潘颖慧,罗键,曾一锋[7](2012)在《多Agent交互式动态影响图的建模方法》一文中研究指出交互式动态影响图是一种以动态影响图为基础,利用有向图构造Agent之间交互作用的决策概率模型,目前只能解决2个Agent的问题.根据概率图模型理论、交互式部分可观测马尔可夫决策过程性质、最大奖励期望值原理等以3个Agent为例建立多Agent交互式动态影响图(I-MADIDs)模型,探讨除建模Agent之外,其他非建模Agent之间存在稳定关系时,如何简化I-MADIDs模型.最后对老虎问题进行建模,利用HUGIN7.0对其进行求解,分别讨论了建模A-gent和其他Agent的决策情况,对比了精确方法和简化模型中贝叶斯参数学习近似方法中Agent的决策情况,证明了近似方法的有效性.(本文来源于《厦门大学学报(自然科学版)》期刊2012年06期)
李波,罗键,庄进发,尹华一[8](2011)在《交互式动态影响图的一种近似求解算法》一文中研究指出提出一种基于行为等价原理分段处理交互式动态影响图(I-DID)的近似算法:先将底层I-DID模型分解成包含若干时间片的子片段,求解首片段,获得各模型的策略树,并依行为等价原理合并策略树,形成策略图,其结果作为下一片段的初始模型,再进行求解.重复这个过程,直到最后片段结束,获得完全策略图,用来指导agent是否进行模型更新.最后,针对多agent老虎问题进行试验和算法比较,试验结果从模型解的质量和模型空间大小2个方面验证了所提算法的有效性.(本文来源于《华中科技大学学报(自然科学版)》期刊2011年10期)
李波,罗键,尹华一,田乐[9](2011)在《一种交互式动态影响图的改进算法》一文中研究指出交互式动态影响图(I-DIDs)是基于概率图形理论的多智能体动态交互决策的图模型.为缓解该模型状态空间随时间片增加呈指数级增长的趋势,文中基于行为等价的基本思想压缩状态空间,提出构建Epsilon行为等价类的方法:利用有向无环图表示其它Agent可能的信度和行为,把信度在空间上接近的模型聚为一类,实现自顶向下合并行为等价模型.该过程避免求解状态空间中的所有候选模型,节省了存储空间和计算时间.模型实例上的仿真结果显示了该算法的有效性.(本文来源于《模式识别与人工智能》期刊2011年04期)
李波,曹浪财,庄进发[10](2011)在《交互式动态影响图及其精确求解算法》一文中研究指出为了表示部分可观察马尔可夫环境下,多Agent决策中各Agent之间的动态结构关系,对影响图(IDs)在结构和时间上进行扩展,形成一种能够对其他Agent建模的决策模型:交互式动态影响图(I-DIDs)。I-DIDs是不确定环境下多Agent进行序贯决策的图模型。该模型的解是在对其Agent行为概率分布的预测下提供给该Agent的最优决策,能更有效地解决多Agent的决策问题。但I-DIDs状态空间太大,Agents候选模型空间随着时间片的增加成指数级增长,使计算变得复杂。因此,提出了一种基于行为等价的最小化模型集合的方法,通过限制模型增长来缓解模型空间不断扩大的趋势,以达到简化计算的目的。在模型实例上的仿真实验结果显示了该算法的有效性。(本文来源于《解放军理工大学学报(自然科学版)》期刊2011年02期)
多动态影响图论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
交互式动态影响图(interactive dynamic influence diagrams)是不确定环境下多Agent(Mult-Agent)序贯决策(Sequential Decision)的图模型[1]。马尔可夫决策过程可以用来描述和处理大规模不确定性环境下的Agent决策问题。本文以马尔可夫决策过程的相关理论为基础,以众多研究者关注的Agent决策为核心,重点分析I-DIDs模型下的求解算法效率。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
多动态影响图论文参考文献
[1].潘颖慧,曾一锋.交互式动态影响图研究及其最优K模型解法[J].计算机学报.2018
[2].鲁桂芳.基于交互式动态影响图的决策模型及算法分析[J].科技经济导刊.2016
[3].罗键,武鹤.基于交互式动态影响图的对手建模[J].控制与决策.2016
[4].田乐,罗键,曹浪财.多Agent交互动态影响图的近似行为等价算法[J].华中科技大学学报(自然科学版).2014
[5].田乐,曹浪财.基于lookahead的交互式动态影响图的DMU改进算法[J].系统工程与电子技术.2014
[6].田乐,罗键,曹浪财,陈志平.基于KL距离的交互式动态影响图近似算法[J].系统工程与电子技术.2013
[7].潘颖慧,罗键,曾一锋.多Agent交互式动态影响图的建模方法[J].厦门大学学报(自然科学版).2012
[8].李波,罗键,庄进发,尹华一.交互式动态影响图的一种近似求解算法[J].华中科技大学学报(自然科学版).2011
[9].李波,罗键,尹华一,田乐.一种交互式动态影响图的改进算法[J].模式识别与人工智能.2011
[10].李波,曹浪财,庄进发.交互式动态影响图及其精确求解算法[J].解放军理工大学学报(自然科学版).2011