马尔科夫决策过程论文-徐公国,单甘霖,段修生,乔成林,王浩天

马尔科夫决策过程论文-徐公国,单甘霖,段修生,乔成林,王浩天

导读:本文包含了马尔科夫决策过程论文开题报告文献综述及选题提纲参考文献,主要关键词:检测与跟踪,传感器调度,马尔科夫决策过程,差分进化

马尔科夫决策过程论文文献综述

徐公国,单甘霖,段修生,乔成林,王浩天[1](2019)在《基于马尔科夫决策过程的多传感器协同检测与跟踪调度方法》一文中研究指出针对多任务场景下的传感器调度问题,该文提出一种面向目标协同检测与跟踪的多传感器调度方法。首先,该方法基于部分可观马尔科夫决策过程(POMDP)构建传感器调度模型,并基于后验克拉美-罗下界(PCRLB)设计优化目标函数。其次,考虑传感器切换时间和目标数目的时变性,采用随机分布粒子计算新生目标的检测概率,给出了固定目标数目和时变目标数目情形下的传感器调度方法。最后,为满足在线调度的实时性需求,采用自适应多种群协同差分进化(AMCDE)算法求解传感器调度方案。仿真结果表明,该方法能够有效应对多任务场景,实现多传感器资源的合理调度。(本文来源于《电子与信息学报》期刊2019年09期)

李家梁[2](2019)在《基于移动边缘计算和马尔科夫决策过程的内容加载节能策略》一文中研究指出移动网络带宽的提升促进了手机的功能日益丰富,但亦导致手机应用耗能愈发厉害。本文提出基于一种基于移动边缘计算和马尔科夫决策过程的内容加载节能策略,根据手机电量状态、应用使用频率以及加载内容,动态灵活地选择最合适的网络和下载最匹配的图片格式,该策略能有效减少内容加载时间和降低手机能耗。(本文来源于《电子元器件与信息技术》期刊2019年04期)

王辉,李小亮,洪波[3](2018)在《马尔科夫决策过程在移动端云存储策略中的应用》一文中研究指出针对传统移动端云存储系统数据量急剧增加时对存储效率产生严重影响的实际情况,从理论上对移动端云存储的存储状态进行分析,提出了一种基于马尔科夫的移动端云存储策略,该策略以节点存储代价的量化描述为基础,引入马尔科夫决策理论并结合存储节点的状态转移,选择最优存储节点实现移动端云存储访问。通过仿真实验对该存储策略进行了验证,结果表明,当数据大小发生改变时,该存储策略能够准确预测并将数据实时调度到合适的存储组机群的存储节点上,有效降低因数据大小不同而导致存储效率降低的影响。(本文来源于《工业仪表与自动化装置》期刊2018年06期)

唐伦,施颖洁,杨希希,陈前斌[4](2018)在《非正交多址接入系统中基于受限马尔科夫决策过程的网络切片虚拟资源分配算法》一文中研究指出针对无线接入网络切片虚拟资源分配优化问题,该文提出基于受限马尔可夫决策过程(CMDP)的网络切片自适应虚拟资源分配算法。首先,该算法在非正交多址接入(NOMA)系统中以用户中断概率和切片队列积压为约束,切片的总速率作为回报,运用受限马尔可夫决策过程理论构建资源自适应问题的动态优化模型;其次定义后决策状态,规避最优值函数中的期望运算;进一步地,针对马尔科夫决策过程(MDP)的"维度灾难"问题,基于近似动态规划理论,定义关于分配行为的基函数,替代决策后状态空间,减少计算维度;最后设计了一种自适应虚拟资源分配算法,通过与外部环境的不断交互学习,动态调整资源分配策略,优化切片性能。仿真结果表明,该算法可以较好地提高系统的性能,满足切片的服务需求。(本文来源于《电子与信息学报》期刊2018年12期)

卫星,陆阳,朱峰,韩江洪[5](2018)在《基于马尔科夫决策过程的井下无线基站切换策略》一文中研究指出远程遥控方式下的井下无人驾驶机车运行伴随着一系列的无线基站通信切换过程,针对如何获取最大通信切换收益问题,提出一种基于马尔科夫决策过程模型的无线基站切换策略。首先,在已建立的井下无线通信切换模型场景中确定各基站的切换时延和可用带宽作为切换判据;其次,由切换判据所得通信收益和信令开销定义无线切换的收益函数;最后,基于贝尔曼方程并运用循环迭代算法求得井下机车最优通信切换策略。仿真结果表明,所提策略获取的切换收益高于高带宽切换策略和同侧切换策略的切换收益。(本文来源于《电子测量与仪器学报》期刊2018年07期)

陈前斌,何小强,吴攀,唐伦[6](2018)在《基于部分可测马尔科夫决策过程业务感知的微基站休眠时长确定策略》一文中研究指出针对密集组网场景中业务不确定性引起的基站休眠周期难以确定的问题,该文提出一种基于部分可测马尔可夫决策过程(Partially Observed Markov Decision Process,POMDP)业务感知的微基站休眠时长确定策略。该策略将周期分为长周期和短周期,每个周期由轻度和深度两个阶段构成。通过POMDP感知到达基站的业务状态,动态调整周期时长,进而选取适合当前周期的时长。仿真结果表明,该策略可以根据业务感知提前确定微基站关断时长,与基于业务门限值的基站关断机制相比节能效果更好。(本文来源于《电子与信息学报》期刊2018年01期)

苏美玲[7](2017)在《基于马尔科夫决策过程理论的无线网络流媒体传输研究》一文中研究指出当今社会人们对视频传输的要求越来越高,随着技术的发展,基于HTTP(Hypertext Transfer Protocol)的动态自适应流媒体技术越来越受到人们的关注。基于HTTP的动态自适应视频流传输(DASH:Dynamic Adaptive Streaming based on HTTP)的技术原理是把相同的视频编码为多份不同质量的视频文件,然后把这些文件分为很多的视频分段存储在服务器端,在流媒体传输过程中,客户端可以根据当前带宽变化来选择适应此网络带宽的质量分段进行传输。但是,DASH标准并没有规定客户端选择视频文件分段时所应采取的策略,这使得客户端可以决定采取什么策略来进行高效的传输,特别是针对时变性很强的无线信道而言。客户端如何根据时变的无线网络带宽选择合适的视频质量分段成为了当今流媒体传输技术的一个研究热点。本文在前人工作的基础上,进一步研究了基于马尔科夫决策过程理论的流媒体传输系统模型,基于模型求解得到最优传输策略。重点讨论和分析了在自适应传输过程中,分段质量和播放时限是如何影响最佳策略的,并分析了在马尔科夫决策过程理论模型中,下载时间离散化对系统模型准确度的影响。本文研究的主要内容为:1.参考国内外已有研究工作,对马尔科夫决策过程理论(MDP)进行学习与总结,进一步研究了流媒体传输中的马尔科夫决策过程系统建模。2.基于该模型,求解得到无线网络流媒体传输过程中的最优传输策略,即根据当前系统状态选择最优的视频分段质量,以期达到最好的用户观看体验。3.基于最优策略,设计仿真程序进行仿真,验证了最优策略的有效性,并通过仿真分析了系统模型在计算中存在的误差因素,即系统状态离散化带来的误差。(本文来源于《西华师范大学》期刊2017-04-01)

方媛,车启凤[8](2017)在《基于认知无线电的部分可观测马尔科夫决策过程衰落信道的接入》一文中研究指出认知无线电是基于复杂环境下进行无线信道接入的一种很有前景的技术.由于无线通信信道的衰落特性,需要利用认知无线电技术对信道接入效率加以改进.文章提出了一个基于认知无线电技术的部分可观测马尔可夫决策过程,意在提高衰落信道环境下网络的吞吐量性能.仿真结果显示,此种基于信道接入算法的部分可观测马尔可夫决策过程比现有方案具有更好的性能.(本文来源于《兰州文理学院学报(自然科学版)》期刊2017年02期)

宋佳佳[9](2017)在《部分观测马尔科夫决策过程中基于记忆的强化学习问题研究》一文中研究指出在强化学习中,Agent对环境做出动作并从环境得到回报,相应于不同的动作,环境给予的回报值有所不同,通过对到达目标点所作一系列动作的回报值不断强化,Agent能够学到从内部状态到动作的映射,即学到决策过程。传统的U-Tree算法在解决部分观测马尔科夫决策过程(partially observable Markov decision processes,POMDP)的强化学习问题方面已经取得了显着的成效,但因为边缘结点生长的随意性,仍然存在树的规模庞大,内存需求较大,计算复杂度过高的问题。本文在原有U-Tree算法的基础上进行改进,通过获取下一步的观测值,对同一叶结点中做相同动作的实例进行划分,提出了一种基于有效实例扩展边缘结点的(EffectiveInstance U-Tree)算法,简称为EIU-Tree算法。大大缩减了计算规模,从而可以帮助agent更快更好地学习,并在经典的4×3栅格问题中进行了仿真实验,实验表明该算法相对于原有的U-Tree算法有更好的效果。针对U-Tree算法和MU-Tree算法中收敛速度慢的问题,本文中在agent做值迭代的时候,我们用Sarsa(λ)算法更新Q值,提出了一种基于Sarsa(λ)算法的(Sarsa(λ)U-Tree)算法,简称为SU-Tree算法。当agent到达目标状态或惩罚状态时,会对这条路径上所有产生的实例进行Q值的更新,提高了算法的收敛速度。并在4X3方格问题和奶酪迷宫问题中进行了仿真实验,实验表明该算法相对于原有的U-Tree算法和MU-Tree算法,Agent可以更快地找到起点到终点的无震荡路径。(本文来源于《天津工业大学》期刊2017-01-14)

刘潋,胡安娜,宋玲,罗舒[10](2017)在《基于马尔科夫过程的高堆石坝施工度汛决策模型》一文中研究指出高堆石坝施工挡水风险的时变性和填筑进度的不确定性增加了坝体施工期度汛方案决策的难度。针对高堆石坝施工度汛过程动态变化的特点,随机模拟大坝挡水风险,并将其划分3个风险状态以判断度汛行动。以整个度汛施工期成本最小化为目标,考虑洪水来流、填筑进度和决策成本等关键因素,建立基于马尔科夫过程的高堆石坝施工度汛决策模型,分析逐月大坝挡水风险状态下的度汛策略、成本函数和风险状态转移概率。在检验其马尔科夫特性基础上,采用决策迭代算法求解每一决策时刻状态下的最优施工度汛方案及度汛过程的决策路径。工程实例分析表明,该决策模型对高堆石坝施工度汛计划策略的调控结果符合实际施工度汛高程变化情况,为指导快速准确制定大坝施工度汛方案提供了参考。(本文来源于《长江科学院院报》期刊2017年11期)

马尔科夫决策过程论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

移动网络带宽的提升促进了手机的功能日益丰富,但亦导致手机应用耗能愈发厉害。本文提出基于一种基于移动边缘计算和马尔科夫决策过程的内容加载节能策略,根据手机电量状态、应用使用频率以及加载内容,动态灵活地选择最合适的网络和下载最匹配的图片格式,该策略能有效减少内容加载时间和降低手机能耗。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

马尔科夫决策过程论文参考文献

[1].徐公国,单甘霖,段修生,乔成林,王浩天.基于马尔科夫决策过程的多传感器协同检测与跟踪调度方法[J].电子与信息学报.2019

[2].李家梁.基于移动边缘计算和马尔科夫决策过程的内容加载节能策略[J].电子元器件与信息技术.2019

[3].王辉,李小亮,洪波.马尔科夫决策过程在移动端云存储策略中的应用[J].工业仪表与自动化装置.2018

[4].唐伦,施颖洁,杨希希,陈前斌.非正交多址接入系统中基于受限马尔科夫决策过程的网络切片虚拟资源分配算法[J].电子与信息学报.2018

[5].卫星,陆阳,朱峰,韩江洪.基于马尔科夫决策过程的井下无线基站切换策略[J].电子测量与仪器学报.2018

[6].陈前斌,何小强,吴攀,唐伦.基于部分可测马尔科夫决策过程业务感知的微基站休眠时长确定策略[J].电子与信息学报.2018

[7].苏美玲.基于马尔科夫决策过程理论的无线网络流媒体传输研究[D].西华师范大学.2017

[8].方媛,车启凤.基于认知无线电的部分可观测马尔科夫决策过程衰落信道的接入[J].兰州文理学院学报(自然科学版).2017

[9].宋佳佳.部分观测马尔科夫决策过程中基于记忆的强化学习问题研究[D].天津工业大学.2017

[10].刘潋,胡安娜,宋玲,罗舒.基于马尔科夫过程的高堆石坝施工度汛决策模型[J].长江科学院院报.2017

标签:;  ;  ;  ;  

马尔科夫决策过程论文-徐公国,单甘霖,段修生,乔成林,王浩天
下载Doc文档

猜你喜欢