马尔科夫决策过程论文_徐公国,单甘霖,段修生,乔成林,王浩天

导读:本文包含了马尔科夫决策过程论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:马尔,过程,科夫,策略,算法,公式,性能。

马尔科夫决策过程论文文献综述

徐公国,单甘霖,段修生,乔成林,王浩天[1](2019)在《基于马尔科夫决策过程的多传感器协同检测与跟踪调度方法》一文中研究指出针对多任务场景下的传感器调度问题,该文提出一种面向目标协同检测与跟踪的多传感器调度方法。首先,该方法基于部分可观马尔科夫决策过程(POMDP)构建传感器调度模型,并基于后验克拉美-罗下界(PCRLB)设计优化目标函数。其次,考虑传感器切换时间和目标数目的时变性,采用随机分布粒子计算新生目标的检测概率,给出了固定目标数目和时变目标数目情形下的传感器调度方法。最后,为满足在线调度的实时性需求,采用自适应多种群协同差分进化(AMCDE)算法求解传感器调度方案。仿真结果表明,该方法能够有效应对多任务场景,实现多传感器资源的合理调度。(本文来源于《电子与信息学报》期刊2019年09期)

李家梁[2](2019)在《基于移动边缘计算和马尔科夫决策过程的内容加载节能策略》一文中研究指出移动网络带宽的提升促进了手机的功能日益丰富,但亦导致手机应用耗能愈发厉害。本文提出基于一种基于移动边缘计算和马尔科夫决策过程的内容加载节能策略,根据手机电量状态、应用使用频率以及加载内容,动态灵活地选择最合适的网络和下载最匹配的图片格式,该策略能有效减少内容加载时间和降低手机能耗。(本文来源于《电子元器件与信息技术》期刊2019年04期)

王辉,李小亮,洪波[3](2018)在《马尔科夫决策过程在移动端云存储策略中的应用》一文中研究指出针对传统移动端云存储系统数据量急剧增加时对存储效率产生严重影响的实际情况,从理论上对移动端云存储的存储状态进行分析,提出了一种基于马尔科夫的移动端云存储策略,该策略以节点存储代价的量化描述为基础,引入马尔科夫决策理论并结合存储节点的状态转移,选择最优存储节点实现移动端云存储访问。通过仿真实验对该存储策略进行了验证,结果表明,当数据大小发生改变时,该存储策略能够准确预测并将数据实时调度到合适的存储组机群的存储节点上,有效降低因数据大小不同而导致存储效率降低的影响。(本文来源于《工业仪表与自动化装置》期刊2018年06期)

唐伦,施颖洁,杨希希,陈前斌[4](2018)在《非正交多址接入系统中基于受限马尔科夫决策过程的网络切片虚拟资源分配算法》一文中研究指出针对无线接入网络切片虚拟资源分配优化问题,该文提出基于受限马尔可夫决策过程(CMDP)的网络切片自适应虚拟资源分配算法。首先,该算法在非正交多址接入(NOMA)系统中以用户中断概率和切片队列积压为约束,切片的总速率作为回报,运用受限马尔可夫决策过程理论构建资源自适应问题的动态优化模型;其次定义后决策状态,规避最优值函数中的期望运算;进一步地,针对马尔科夫决策过程(MDP)的"维度灾难"问题,基于近似动态规划理论,定义关于分配行为的基函数,替代决策后状态空间,减少计算维度;最后设计了一种自适应虚拟资源分配算法,通过与外部环境的不断交互学习,动态调整资源分配策略,优化切片性能。仿真结果表明,该算法可以较好地提高系统的性能,满足切片的服务需求。(本文来源于《电子与信息学报》期刊2018年12期)

卫星,陆阳,朱峰,韩江洪[5](2018)在《基于马尔科夫决策过程的井下无线基站切换策略》一文中研究指出远程遥控方式下的井下无人驾驶机车运行伴随着一系列的无线基站通信切换过程,针对如何获取最大通信切换收益问题,提出一种基于马尔科夫决策过程模型的无线基站切换策略。首先,在已建立的井下无线通信切换模型场景中确定各基站的切换时延和可用带宽作为切换判据;其次,由切换判据所得通信收益和信令开销定义无线切换的收益函数;最后,基于贝尔曼方程并运用循环迭代算法求得井下机车最优通信切换策略。仿真结果表明,所提策略获取的切换收益高于高带宽切换策略和同侧切换策略的切换收益。(本文来源于《电子测量与仪器学报》期刊2018年07期)

陈前斌,何小强,吴攀,唐伦[6](2018)在《基于部分可测马尔科夫决策过程业务感知的微基站休眠时长确定策略》一文中研究指出针对密集组网场景中业务不确定性引起的基站休眠周期难以确定的问题,该文提出一种基于部分可测马尔可夫决策过程(Partially Observed Markov Decision Process,POMDP)业务感知的微基站休眠时长确定策略。该策略将周期分为长周期和短周期,每个周期由轻度和深度两个阶段构成。通过POMDP感知到达基站的业务状态,动态调整周期时长,进而选取适合当前周期的时长。仿真结果表明,该策略可以根据业务感知提前确定微基站关断时长,与基于业务门限值的基站关断机制相比节能效果更好。(本文来源于《电子与信息学报》期刊2018年01期)

苏美玲[7](2017)在《基于马尔科夫决策过程理论的无线网络流媒体传输研究》一文中研究指出当今社会人们对视频传输的要求越来越高,随着技术的发展,基于HTTP(Hypertext Transfer Protocol)的动态自适应流媒体技术越来越受到人们的关注。基于HTTP的动态自适应视频流传输(DASH:Dynamic Adaptive Streaming based on HTTP)的技术原理是把相同的视频编码为多份不同质量的视频文件,然后把这些文件分为很多的视频分段存储在服务器端,在流媒体传输过程中,客户端可以根据当前带宽变化来选择适应此网络带宽的质量分段进行传输。但是,DASH标准并没有规定客户端选择视频文件分段时所应采取的策略,这使得客户端可以决定采取什么策略来进行高效的传输,特别是针对时变性很强的无线信道而言。客户端如何根据时变的无线网络带宽选择合适的视频质量分段成为了当今流媒体传输技术的一个研究热点。本文在前人工作的基础上,进一步研究了基于马尔科夫决策过程理论的流媒体传输系统模型,基于模型求解得到最优传输策略。重点讨论和分析了在自适应传输过程中,分段质量和播放时限是如何影响最佳策略的,并分析了在马尔科夫决策过程理论模型中,下载时间离散化对系统模型准确度的影响。本文研究的主要内容为:1.参考国内外已有研究工作,对马尔科夫决策过程理论(MDP)进行学习与总结,进一步研究了流媒体传输中的马尔科夫决策过程系统建模。2.基于该模型,求解得到无线网络流媒体传输过程中的最优传输策略,即根据当前系统状态选择最优的视频分段质量,以期达到最好的用户观看体验。3.基于最优策略,设计仿真程序进行仿真,验证了最优策略的有效性,并通过仿真分析了系统模型在计算中存在的误差因素,即系统状态离散化带来的误差。(本文来源于《西华师范大学》期刊2017-04-01)

宋佳佳[8](2017)在《部分观测马尔科夫决策过程中基于记忆的强化学习问题研究》一文中研究指出在强化学习中,Agent对环境做出动作并从环境得到回报,相应于不同的动作,环境给予的回报值有所不同,通过对到达目标点所作一系列动作的回报值不断强化,Agent能够学到从内部状态到动作的映射,即学到决策过程。传统的U-Tree算法在解决部分观测马尔科夫决策过程(partially observable Markov decision processes,POMDP)的强化学习问题方面已经取得了显着的成效,但因为边缘结点生长的随意性,仍然存在树的规模庞大,内存需求较大,计算复杂度过高的问题。本文在原有U-Tree算法的基础上进行改进,通过获取下一步的观测值,对同一叶结点中做相同动作的实例进行划分,提出了一种基于有效实例扩展边缘结点的(EffectiveInstance U-Tree)算法,简称为EIU-Tree算法。大大缩减了计算规模,从而可以帮助agent更快更好地学习,并在经典的4×3栅格问题中进行了仿真实验,实验表明该算法相对于原有的U-Tree算法有更好的效果。针对U-Tree算法和MU-Tree算法中收敛速度慢的问题,本文中在agent做值迭代的时候,我们用Sarsa(λ)算法更新Q值,提出了一种基于Sarsa(λ)算法的(Sarsa(λ)U-Tree)算法,简称为SU-Tree算法。当agent到达目标状态或惩罚状态时,会对这条路径上所有产生的实例进行Q值的更新,提高了算法的收敛速度。并在4X3方格问题和奶酪迷宫问题中进行了仿真实验,实验表明该算法相对于原有的U-Tree算法和MU-Tree算法,Agent可以更快地找到起点到终点的无震荡路径。(本文来源于《天津工业大学》期刊2017-01-14)

李稚,谭德庆[9](2016)在《基于马尔科夫决策过程的ATO系统独立组件与产品双需求最优决策研究》一文中研究指出研究多维组件,单一产品的双需求型面向订单装配(Assemble-to-order,ATO)系统.产品需求为延期交货型,当其不被满足时将产生缺货等待成本;而独立组件需求为销售损失型,其不被满足时将产生缺货损失成本.该问题可以抽象成一个动态马尔科夫决策过程(Markov decision process,MDP),通过对双需求模型求解得到状态依赖型最优策略,即任一组件的最优生产–库存策略由系统内其他组件的库存水平决定.研究解决了多需求复杂ATO系统的生产和库存优化控制问题.提出在一定条件下,组件的基础库存值可以等价于最终产品需求的库存配给值.组件的基础库存值与库存配给值随系统内其他组件库存的增加而增加,而产品需求的库存配给值随系统组件库存和产品缺货量的增加而减少.最后通过数值实验分析缺货量及组件库存对最优策略结构的影响,并得到了相应的企业生产实践的管理启示.(本文来源于《自动化学报》期刊2016年05期)

季哲[10](2016)在《部分可观马尔科夫决策过程直接基于观测的优化方法研究》一文中研究指出随机动态系统性能优化问题一直是众多科学领域的热点问题。对于一些状态具有马氏特征的复杂随机动态系统,系统的状态往往不可观,能够获得的是与系统状态存在一定关联的观测量。对于这一类状态具有马氏特征的复杂随机动态系统,Markov决策过程模型优化方法无法较高效地处理。因此部分可观Markov决策过程(POMDPs)作为Markov决策过程数学模型的推广被提出。部分可观Markov决策过程模型可以很好地刻画系统状态未知的这一类系统,具有比Markov决策过程更广泛的应用性。针对Markov决策过程性能优化问题,众多领域给出了不同的解决方法。近年来,一种基于灵敏度分析的优化方法被提出。该方法为众多领域的不同优化方法的有机地结合,形成了以性能势理论为基础,性能灵敏度公式为核心的优化方法。目前,对于部分可观Markov决策过程模型,基于系统观测的部分可观Markov决策过程的性能差分公式和性能导数公式已经被导出。不过目前给出的灵敏度公式的推导过程需要满足不同策略条件下条件稳态概率相同的假设;另外推导过程中一些参数和公式还依赖于系统状态。上述两个限制导致目前提出的基于观测的部分可观Markov决策过程的性能灵敏度的优化方法只能被应用于一些特殊的排队系统,不能被推广到一般的部分可观Markov决策过程。本文在目前已给出的部分可观Markov决策过程基于性能灵敏度方法基础上,提出一种新的直接基于观测的性能灵敏度优化方法。该方法仅依据于可被获得的系统观测空间。我们将给出仅仅依赖于观测的性能势、报酬函数等相关系统参数的定义。并根据基于观测的性能势与传统性能势的关系,推导出基于观测的泊松方程。整个推导过程仅仅依据于系统的观测,无需其他苛刻的条件限制。基于新方法的性能灵敏度分析可被推广到一般的部分可观Markov决策过程中,因此有广泛的实际应用性。本文将注重性能差公式的推导过程,并导出一种新的策略迭代算法。该算法可寻找出基于新方法的次优策略。本文针对大规模部分可观Markov决策过程模型的优化问题给出一种基于递阶控制理论的策略迭代算法。在递阶控制理论中,若干子系统的性能彼此相互制约相互关联,因此对于大规模部分可观Markov决策过程的优化问题是一种具有条件约束的优化问题。利用基于性能灵敏度的优化方法,给出了满足约束条件下的最优策略的充分条件。在此基础之上,一种基于递阶控制的策略迭代算法将被给出。此算法无需严格的假设条件可以被应用十许多实际问题当中。最后本文通过两个应用实例分析,验证了本文所提出的算法的适用性。(本文来源于《中国科学技术大学》期刊2016-05-01)

马尔科夫决策过程论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

移动网络带宽的提升促进了手机的功能日益丰富,但亦导致手机应用耗能愈发厉害。本文提出基于一种基于移动边缘计算和马尔科夫决策过程的内容加载节能策略,根据手机电量状态、应用使用频率以及加载内容,动态灵活地选择最合适的网络和下载最匹配的图片格式,该策略能有效减少内容加载时间和降低手机能耗。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

马尔科夫决策过程论文参考文献

[1].徐公国,单甘霖,段修生,乔成林,王浩天.基于马尔科夫决策过程的多传感器协同检测与跟踪调度方法[J].电子与信息学报.2019

[2].李家梁.基于移动边缘计算和马尔科夫决策过程的内容加载节能策略[J].电子元器件与信息技术.2019

[3].王辉,李小亮,洪波.马尔科夫决策过程在移动端云存储策略中的应用[J].工业仪表与自动化装置.2018

[4].唐伦,施颖洁,杨希希,陈前斌.非正交多址接入系统中基于受限马尔科夫决策过程的网络切片虚拟资源分配算法[J].电子与信息学报.2018

[5].卫星,陆阳,朱峰,韩江洪.基于马尔科夫决策过程的井下无线基站切换策略[J].电子测量与仪器学报.2018

[6].陈前斌,何小强,吴攀,唐伦.基于部分可测马尔科夫决策过程业务感知的微基站休眠时长确定策略[J].电子与信息学报.2018

[7].苏美玲.基于马尔科夫决策过程理论的无线网络流媒体传输研究[D].西华师范大学.2017

[8].宋佳佳.部分观测马尔科夫决策过程中基于记忆的强化学习问题研究[D].天津工业大学.2017

[9].李稚,谭德庆.基于马尔科夫决策过程的ATO系统独立组件与产品双需求最优决策研究[J].自动化学报.2016

[10].季哲.部分可观马尔科夫决策过程直接基于观测的优化方法研究[D].中国科学技术大学.2016

论文知识图

带有能量收获装置的无线通信系统基于模型的协同过滤步骤示意图一种无限时长马尔科夫决策模型基本结...离散时间马尔科夫信道模型带有感知延迟的系统状态模型观测状态与实际系统状态的关系

标签:;  ;  ;  ;  ;  ;  ;  

马尔科夫决策过程论文_徐公国,单甘霖,段修生,乔成林,王浩天
下载Doc文档

猜你喜欢