Print

基于强化学习的动态定价策略研究综述

论文摘要

随着人工智能技术的不断发展,其应用领域也逐渐拓宽。为了能进一步将强化学习技术应用于动态定价领域,构建智能动态定价系统,对与动态定价相关的强化学习技术进行介绍,将已有研究从供应商数目(单供应商、多供应商)、所处环境模型(MDP、POMDP、Semi-MDP)、选用算法(Q-Learning, SARSA, Monte-Carlo)等方面进行综述。基于综述内容提出未来智能动态定价的研究方向。

论文目录

  • 0 引 言
  • 1 强化学习
  •   1.1 马尔可夫决策过程(MDP)
  •   1.2 半马尔可夫决策过程(SMDP)
  •   1.3 部分可观测马尔可夫决策过程(POMDP)
  • 2 强化学习算法
  •   2.1 Q-Learning算法
  •   2.2 SARSA算法
  •   2.3 蒙特卡罗算法
  • 3 基于强化学习的动态定价策略
  • 4 结 语
  • 文章来源

    类型: 期刊论文

    作者: 王欣,王芳

    关键词: 动态定价,强化学习,机器学习,人工智能

    来源: 计算机应用与软件 2019年12期

    年度: 2019

    分类: 信息科技,经济与管理科学

    专业: 自动化技术,企业经济

    单位: 上海外国语大学国际工商管理学院

    基金: 国家自然科学青年基金项目(31700950),教育部人文社科青年基金项目(19YJC630174),中国博士后科学基金面上项目(2018M630461)

    分类号: TP18;F274

    页码: 1-6+18

    总页数: 7

    文件大小: 176K

    下载量: 612

    相关论文文献

    本文来源: https://www.lunwen90.cn/article/26ff18c62a581377f7160422.html