基于策略梯度算法的工作量证明中挖矿困境研究

基于策略梯度算法的工作量证明中挖矿困境研究

论文摘要

针对区块链中工作量证明(PoW)共识机制下区块截留攻击导致的挖矿困境问题,将矿池间的博弈行为视作迭代的囚徒困境(IPD)模型,采用深度强化学习的策略梯度算法研究IPD的策略选择。利用该算法将每个矿池视为独立的智能体(Agent),将矿工的潜入率量化为强化学习中的行为分布,通过策略梯度算法中的策略网络对Agent的行为进行预测和优化,最大化矿工的人均收益,并通过模拟实验验证了策略梯度算法的有效性。实验发现,前期矿池处于相互攻击状态,平均收益小于1,出现了纳什均衡的问题;经过policy gradient算法的自我调整后,矿池由相互攻击转变为相互合作,每个矿池的潜入率趋于0,人均收益趋于1。实验结果表明,policy gradient算法可以解决挖矿困境的纳什均衡问题,最大化矿池人均收益。

论文目录

  • 0 引言
  • 1 相关工作
  • 2 挖矿博弈模型
  •   2.1 问题描述
  •   2.2 双池博弈模型
  • 3 博弈决策优化
  •   3.1 策略梯度算法
  •   3.2 policy gradient在双池博弈的应用
  •   3.3 平均收益函数的收敛性
  • 4 实验模拟
  •   4.1 实验细节
  •   4.2 实验结果
  •     4.2.1 博弈双方算力相当
  •     4.2.2 博弈双方算力有差异
  • 5 结语
  • 文章来源

    类型: 期刊论文

    作者: 王甜甜,于双元,徐保民

    关键词: 区块链,工作量证明机制,博弈论,深度强化学习,策略梯度算法

    来源: 计算机应用 2019年05期

    年度: 2019

    分类: 信息科技,工程科技Ⅰ辑

    专业: 矿业工程,计算机软件及计算机应用,自动化技术

    单位: 北京交通大学计算机与信息技术学院

    基金: 国家自然科学基金资助项目(61572005),河北省高等教育科技研究重点项目(ZD2017304)~~

    分类号: TP18;TP311.13;TD79

    页码: 1336-1342

    总页数: 7

    文件大小: 1518K

    下载量: 382

    相关论文文献

    标签:;  ;  ;  ;  ;  

    基于策略梯度算法的工作量证明中挖矿困境研究
    下载Doc文档

    猜你喜欢