导读:本文包含了瞬时差分论文开题报告文献综述及选题提纲参考文献,主要关键词:中国象棋计算机博弈,瞬时差分方法,神经网络,专家棋谱
瞬时差分论文文献综述
何玉林[1](2009)在《瞬时差分方法在中国象棋计算机博弈中的应用》一文中研究指出与国际象棋相比较,中国象棋具有更大的棋子运动空间,并且中国象棋的着法更加特殊、棋局变化也更加复杂。在中国象棋计算机博弈中,对于设计一款优秀的博弈软件而言,最费时的就是评价函数的实现与调整。在本文中,我们使用叁层的全连接前馈式神经网络表示评价函数,瞬时差分方法是一种增强学习算法,它利用相邻状态之间的状态值之差逐步地更新值函数的权值。基于单输出的神经网络,通过将TD(λ)算法引入到中国象棋计算机博弈中,我们推导出了套新的神经网络权值更新规则。我们使用专家棋谱作为训练样例,并利用新权值更新规则完成对网络的更新。在训练神经网络的过程中,每份专家棋谱被重复地学习,直至评价函数对专家棋谱中每个局面给出的评价值达到稳定。通过实验验证,我们学习到的评价函数是可行有效的。并且,我们获得了评价函数的表现与叁种参数之间的关系:评价函数表现与神经网络隐含层节点个数之间的关系、评价函数表现与学习率α之间的关系、以及评价函数表现与参数λ之间的关系。(本文来源于《河北大学》期刊2009-05-01)
殷苌茗,王汉兴,陈焕文,谢丽娟[2](2003)在《基于有效跟踪的平均渐进瞬时差分学习遗忘算法(英文)》一文中研究指出智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分TD(λ)是在MDP模型下与策略相关的学习值函数的一种算法.一般情况下,智能体必须记住其所有的值函数的值,当状态空间非常大时,这种记忆的量是大得惊人的.为了解决这个问题,给出了一种遗忘算法,这种算法把心理学的遗忘准则引入到了激励学习之中.利用遗忘算法,可以解决智能体在大状态空间中的激励学习问题.(本文来源于《长沙电力学院学报(自然科学版)》期刊2003年04期)
瞬时差分论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
智能体通过学习最优决策来解决其决策问题.激励学习方法是智能体通过与其所处的环境交互来改进它自身的行为.Markov决策过程(MDP)模型是求解激励学习问题的一般框架,瞬时差分TD(λ)是在MDP模型下与策略相关的学习值函数的一种算法.一般情况下,智能体必须记住其所有的值函数的值,当状态空间非常大时,这种记忆的量是大得惊人的.为了解决这个问题,给出了一种遗忘算法,这种算法把心理学的遗忘准则引入到了激励学习之中.利用遗忘算法,可以解决智能体在大状态空间中的激励学习问题.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
瞬时差分论文参考文献
[1].何玉林.瞬时差分方法在中国象棋计算机博弈中的应用[D].河北大学.2009
[2].殷苌茗,王汉兴,陈焕文,谢丽娟.基于有效跟踪的平均渐进瞬时差分学习遗忘算法(英文)[J].长沙电力学院学报(自然科学版).2003