基于增强学习的智能体博弈问题研究

基于增强学习的智能体博弈问题研究

论文摘要

随着无人技术的发展,如何更好的应用无人装备,成为急需解决的问题。又由于无人技术应用中的智能体博弈问题的相关研究中,经典的方法大多缺少模型抽象能力,往往需要在问题解算过程中进行较多的人为干预,而增强学习具有与问题交互,自动进行问题建模并求解的能力。因此,本文的研究目标是基于已有的主流增强学习算法,在实际的智能体博弈问题中,进行有针对性的应用与改进,从而一定程度上地解决该博弈问题。本文首先针对研究的智能体博弈问题,分析并进行数学建模。同时,为了便于增强学习的算法设计,根据设计的解耦原则,建立解耦的路径规划问题和攻防对抗问题的数学模型。然后,基于上述数学模型,实现智能体博弈问题仿真环境的搭建,与增强学习算法进行交互。算法研究部分,首先针对路径规划和攻防对抗问题,研究状态设计与奖励设计,并应用主流的策略梯度、DQN和A2C增强学习算法进行解算,结合学习效果与问题分析,将网络结构改进为并行网络结构和分支网络结构。从不同算法和不同改进方法两个角度,对算法的求解效果进行比较,从中评估最适合应用与原问题求解的分支A2C方法。最后,基于路径规划和攻防对抗问题的研究结果,设计原问题的状态与奖励,应用上述策略梯度、DQN和A2C增强学习算法的正常网络结构、分支结构和并行网络结构,进行智能体博弈问题求解,验证基于解耦问题算法分析结果的有效性。设计的并行网络结构将博弈问题中的互相解耦的动作用不同的网络分别决策,降低了每个独立网络学习的难度,虽然增加了学习的不平稳性,但是对学习效果有较为明显的提升。设计的分支网络将互相解耦的动作,公用网络的特征提取层,采用不同的网络输出结构,既降低了网络的学习难度,又降低了学习的不平稳性。最终,降低了智能体博弈问题的学习难度,扩大了增强学习算法的学习能力。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  •   1.1 研究背景与意义
  •     1.1.1 无人装备技术的迅速发展
  •     1.1.2 智能化博弈的不断推进
  •     1.1.3 研究背景小结
  •   1.2 国内外博弈问题的研究现状
  •     1.2.1 基于最优控制的博弈求解方法
  •     1.2.2 基于知识匹配的博弈求解方法
  •     1.2.3 基于博弈树搜索的求解方法
  •     1.2.4 基于增强学习的博弈求解算法
  •     1.2.5 博弈问题求解方法分类
  •     1.2.6 国内外研究现状小结
  •   1.3 本文的主要研究内容
  • 第2章 智能体博弈问题建模
  •   2.1 引言
  •   2.2 智能体博弈问题分析
  •   2.3 智能体博弈问题数学模型建立
  •     2.3.1 模型假设
  •     2.3.2 博弈问题抽象模型
  •     2.3.3 博弈问题详细数学模型
  •   2.4 智能体博弈解耦分析
  •     2.4.1 智能体博弈问题分解原则
  •     2.4.2 路径规划问题数学描述
  •     2.4.3 攻防对抗问题数学描述
  •   2.5 智能体博弈仿真环境搭建
  •     2.5.1 仿真环境需求分析
  •     2.5.2 仿真环境框架设计
  •     2.5.3 仿真环境实现
  •   2.6 本章小结
  • 第3章 基于改进增强学习博弈对抗算法研究
  •   3.1 增强学习方法的改进研究
  •     3.1.1 增强学习基本结构
  •     3.1.2 增强学习基本分类及其特性分析
  •     3.1.3 增强学习算法介绍
  •     3.1.4 增强学习网络框架改进
  •   3.2 基于改进增强学习的路径规划问题研究
  •     3.2.1 路径规划问题状态设计
  •     3.2.2 路径规划问题奖励设计
  •     3.2.3 路径规划问题各算法学习效果比较分析
  •   3.3 基于改进增强学习的攻防对抗问题研究
  •     3.3.1 攻防对抗问题状态设计
  •     3.3.2 攻防对抗问题奖励设计
  •     3.3.3 攻防对抗问题各算法学习效果比较分析
  •   3.4 本章小结
  • 第4章 基于改进增强学习的综合博弈与验证
  •   4.1 综合问题状态设计
  •   4.2 综合问题奖励设计
  •   4.3 综合问题各算法学习效果比较分析
  •     4.3.1 同网络不同算法的学习效果对比
  •     4.3.2 同算法不同网络的学习效果对比
  •   4.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文及其它成果
  • 致谢
  • 文章来源

    类型: 硕士论文

    作者: 董诗音

    导师: 李玉庆

    关键词: 智能体博弈,增强学习,问题解耦,分支网络

    来源: 哈尔滨工业大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 数学,自动化技术

    单位: 哈尔滨工业大学

    分类号: O225;TP18

    DOI: 10.27061/d.cnki.ghgdu.2019.004061

    总页数: 105

    文件大小: 2694K

    下载量: 315

    相关论文文献

    • [1].自我升级智能体的逻辑与认知问题[J]. 中国社会科学 2019(12)
    • [2].基于智能体群组强化学习的电网无功电压调控方法[J]. 电力工程技术 2020(02)
    • [3].人工智能体的刑事责任问题探究[J]. 文化创新比较研究 2020(06)
    • [4].人工智能体引发的伦理困境[J]. 中国高新科技 2020(03)
    • [5].人工智能体犯罪主体资格证伪——以刑事责任之实现为视角[J]. 学术交流 2020(01)
    • [6].人工智能体“有意不为”的伦理意蕴[J]. 东北大学学报(社会科学版) 2020(03)
    • [7].人工智能体刑法地位的教义学反思[J]. 重庆大学学报(社会科学版) 2020(03)
    • [8].人工智能体法律地位的审视——基于实质与形式要素之考量[J]. 济源职业技术学院学报 2020(02)
    • [9].人工智能体有限法律人格论[J]. 广西社会科学 2020(02)
    • [10].人工智能体的道德设计及其面临的挑战[J]. 长沙大学学报 2020(04)
    • [11].智能家居场景中会话智能体主动交互设计研究[J]. 图学学报 2020(04)
    • [12].视频课程中教育智能体的社会线索设计研究[J]. 电化教育研究 2020(09)
    • [13].人工智能体的道德地位研究——基于责任论视角[J]. 湘潭大学学报(哲学社会科学版) 2020(05)
    • [14].华为发布智能体[J]. 智能城市 2020(18)
    • [15].人工智能体侵权责任研究[J]. 江苏工程职业技术学院学报 2020(03)
    • [16].资讯·企业[J]. 中国信息界 2020(05)
    • [17].打造城市智能体[J]. 中国建设信息化 2019(03)
    • [18].《智能体感瑜伽垫》[J]. 艺术教育 2018(15)
    • [19].人与智能体交互:与人相关的人工智能系统设计[J]. 装饰 2016(11)
    • [20].创新智能体系统的软件工程方法研究[J]. 西部素质教育 2015(02)
    • [21].智能体技术在城市交通信号控制系统中应用综述[J]. 科技风 2015(13)
    • [22].论人类与人工智能体的道德矛盾[J]. 长江丛刊 2017(27)
    • [23].人工智能体过失刑事风险的因应[J]. 法治社会 2020(06)
    • [24].基于线性时序逻辑的智能体不确定行为规划[J]. 中国科学:技术科学 2020(05)
    • [25].人工智能体刑事诉讼被追诉人地位审思[J]. 学术交流 2020(07)
    • [26].财务智能理论:智能体与情景情绪计算融合[J]. 财务研究 2018(06)
    • [27].人工智能体的自主性与责任承担[J]. 自然辩证法通讯 2019(11)
    • [28].智能体技术在城市交通信号控制系统中的应用[J]. 交通世界 2018(26)
    • [29].城市综合管廊监测监控中的信息智能体和消息主动触发技术[J]. 中国市政工程 2017(03)
    • [30].创建智能体系统的软件工程方法[J]. 电子技术与软件工程 2017(15)

    标签:;  ;  ;  ;  

    基于增强学习的智能体博弈问题研究
    下载Doc文档

    猜你喜欢