深度强化学习论文

基于深度强化学习的智能体在智慧消防中的应用研究
论文摘要消防直接关系到人民的生命财产安全。针对在火灾发生时因救援环境复杂导致被困人员搜救困难的问题,提出了一种基于深度强化学习的智能体在消防场景中的目标识别和路径规划算法。通过...
飞行时间约束下的再入制导律
论文摘要为应对现代战场的信息化与集群化发展趋势,从多高超声速飞行器饱和打击任务需求出发,针对其中的再入飞行时间约束条件进行研究,提出一套基于DeepQ-learningNetw...
基于图像卷积神经网络的匝道控制深度强化学习算法研究
论文摘要针对入口匝道流量控制提升通行效率问题,提出了一种基于图像卷积神经网络的匝道控制深度强化学习算法.克服传统依赖定点检测器的匝道控制对于交通状态估计模糊的缺陷,建立基于图像...
基于改进DDPG算法的车辆低速跟驰行为决策研究
论文摘要车辆跟驰行为决策研究对于车辆跟驰驾驶技术的发展至关重要,以深度强化学习方法研究车辆低速跟驰场景,提出了一种改进型DDPG决策算法,该算法在DDPG算法的基础上,结合了C...
基于D3QN的交通信号控制策略
论文摘要交叉口是城市路网的核心和枢纽,合理优化交叉口的信号控制可以极大地提高城市交通体系的运行效率,而将实时交通信息作为输入并动态调整交通信号灯的相位时间成为了当前研究的重要方...
无人机集群类脑导航系统综述
论文摘要随着网格细胞、位置细胞及头朝向细胞等类脑认知导航细胞的作用被揭示、人工智能的快速发展以及群体智能感知定位机理的蓬勃发展,为研究无人机集群编队复杂飞行环境下的类脑编队协同...
基于多类型传感数据的自动驾驶深度强化学习方法
论文摘要提出了一种基于多类型传感数据训练自动驾驶策略的方法,采用不同卷积网络对高维图像数据和低维目标级传感数据进行特征提取,然后对提取特征进行组合,采用组合特征学习自动驾驶策略...
基于策略梯度算法的工作量证明中挖矿困境研究
论文摘要针对区块链中工作量证明(PoW)共识机制下区块截留攻击导致的挖矿困境问题,将矿池间的博弈行为视作迭代的囚徒困境(IPD)模型,采用深度强化学习的策略梯度算法研究IPD的...
基于行动者-评论家方法的船舶路径规划研究
论文摘要随着人工智能技术的发展,船舶智能化成为航运领域发展的必然趋势,而航线规划技术已经成为智能船舶研究的七大关键技术之一,因此,探索更加优化的船舶路径规划方法对安全与智能化航...
人工智能与“星际争霸”:多智能体博弈研究新进展
论文摘要多智能体博弈游戏具有实时对抗、群体协作、非完全信息博弈、庞大的搜索空间、多复杂任务和时间空间推理等特点,是当前人工智能领域极具挑战的难题。同时,该领域研究成果在社会管理...
基于深度强化学习的微电网储能调度策略研究
论文摘要文章研究了基于深度强化学习的微电网储能调度策略,如果场景的电价方式不同,利用强化学习算法,可以将模型的自主性充分发挥出来,结合学习环境信息,确定最优调度策略。论文目录文...