基于强化学习的动态定价策略研究综述

论文摘要

随着人工智能技术的不断发展,其应用领域也逐渐拓宽。为了能进一步将强化学习技术应用于动态定价领域,构建智能动态定价系统,对与动态定价相关的强化学习技术进行介绍,将已有研究从供应商数目（单供应商、多供应商）、所处环境模型（MDP、POMDP、Semi-MDP）、选用算法（Q-Learning, SARSA, Monte-Carlo）等方面进行综述。基于综述内容提出未来智能动态定价的研究方向。

论文目录

0 引言

1 强化学习

1.1 马尔可夫决策过程（MDP）

1.2 半马尔可夫决策过程（SMDP）

1.3 部分可观测马尔可夫决策过程（POMDP）

2 强化学习算法

2.1 Q-Learning算法

2.2 SARSA算法

2.3 蒙特卡罗算法

3 基于强化学习的动态定价策略

4 结语

文章来源

类型: 期刊论文

作者: 王欣,王芳

关键词: 动态定价,强化学习,机器学习,人工智能

来源: 计算机应用与软件 2019年12期

年度: 2019

分类: 信息科技,经济与管理科学

专业: 自动化技术,企业经济

单位: 上海外国语大学国际工商管理学院

基金: 国家自然科学青年基金项目(31700950),教育部人文社科青年基金项目(19YJC630174),中国博士后科学基金面上项目(2018M630461)

分类号: TP18;F274

页码: 1-6+18

总页数: 7

文件大小: 176K

下载量: 612

基于强化学习的动态定价策略研究综述

论文摘要

论文目录

文章来源

相关论文文献

猜你喜欢