基于最大似然估计的众包质量控制优化方法研究

基于最大似然估计的众包质量控制优化方法研究

论文摘要

众包能够通过利用数十万网络中的工人(即人群)的智慧来解决计算机难以有效解决的问题,如实体解析、情感分析和图像识别问题。尤其在为机器学习和数据挖掘领域提供人类智能支持方面已经非常成功,它们通过在公共众包平台(如Amazon Mechanical Turk(AMT)、Crowdflower 和 Upwork)上发布标注任务来收集用于训练各种机器学习和数据挖掘系统的标记数据。由于众包中的工人可能具有不同水平的专业知识,未经培训的工人可能无法完成某些任务,甚至一些恶意的工人可能会故意给出错误的答案,众包可能会产生相对低质量的结果。因此,需要一些质量控制策略来保证众包任务结果的质量,即在收到工人的对于任务的回答后,对工人的质量建模,然后根据工人质量推测出任务的真实答案。现在已有的众包质量控制方法主要利用EM方法最大化似然值来估计工人的质量以及任务的真实答案。然而,基于EM的方法往往只是局部最优的解决方案,并且估计结果会受到初始值的影响。所以,本文提出了面向全局最优结果的众包质量控制优化方法来解决以上问题。本文主要针对于基于最大似然估计的众包质量控制优化问题进行了深入研究。首先,提出了基于最大似然估计的众包质量控制局部最优算法,利用EM方法最大化似然值对工人的质量以及任务的真实答案进行评估,分别提出了基于静态和动态工人模型的众包质量评估算法。其中静态工人模型是用概率值或者概率矩阵来表示工人的质量。动态工人模型中工人的质量受到任务难度的影响并且符合函数分布,动态工人模型能够更加详尽的体现工人的质量随影响因素的变化规律。在对工人质量建模后,利用EM方法最大化似然函数估计出工人模型的参数以及任务的真实答案。然后,本文在EM方法的局部最优结果的基础之上进行优化,提出了一个以似然最大为目标的众包质量控制近似全局最优算法。该优化算法由一个任务优势排序模型和一个迭代近邻搜索算法组成,通过进一步似然最大化来提高任务真实答案估计的准确性。任务优势排序模型可以帮助删减劣势的任务-答案组合,并且保留优势的任务-答案组合;迭代近邻搜索算法能够在一个邻域内找到具有最大似然值的任务-答案组合。本文提出的优化算法在最大化似然值的同时提供了工人的质量和任务的真实答案估计的准确性。最后,本文采用了模拟数据集和在AMT平台上收集的关于情感分析任务的真实数据集,通过大量的对比实验评估了本文提出的众包质量控制局部最优算法以及近似全局最优算法。实验结果表明,本文提出的方法能够得到更高质量的估计结果。另外,我们实现了一个众包APP作为实验平台,该实验平台能够管理和发布移动众包任务(例如商场打折信息标注任务)并收集移动众包数据,还可以通过该平台来应用众包质量控制相关算法。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  •   1.1 研究背景及意义
  •   1.2 研究内容及主要贡献
  •   1.3 论文组织结构
  • 第2章 相关研究工作
  •   2.1 众包质量控制策略
  •     2.1.1 黄金标准数据策略
  •     2.1.2 基于EM估计策略
  •     2.1.3 基于机器学习策略
  •   2.2 众包质量控制优化策略
  •   2.3 本章小结
  • 第3章 众包质量控制优化问题建模
  •   3.1 场景描述
  •   3.2 概念定义和问题描述
  •   3.3 本章小结
  • 第4章 众包质量控制局部最优算法
  •   4.1 基于静态工人模型的质量评估算法
  •     4.1.1 静态工人模型
  •     4.1.2 基于EM的参数估计算法
  •   4.2 基于动态工人模型的质量评估算法
  •     4.2.1 动态工人模型
  •     4.2.2 基于EM的参数估计算法
  •   4.3 本章小结
  • 第5章 众包质量控制近似全局最优算法
  •   5.1 算法概述
  •   5.2 任务优势排序模型
  •   5.3 迭代近邻搜索算法
  •   5.4 本章小结
  • 第6章 实验评估
  •   6.1 实验设置
  •   6.2 局部最优算法实验
  •     6.2.1 对比算法
  •     6.2.2 模拟数据实验
  •     6.2.3 真实数据实验
  •   6.3 近似全局最优算法实验
  •     6.3.2 模拟数据实验
  •     6.3.3 真实数据实验
  •   6.4 本章小结
  • 第7章 总结与展望
  •   7.1 总结
  •   7.2 展望
  • 参考文献
  • 致谢
  • 攻读研究生期间发表论文
  • 攻读研究生期间参与科研项目
  • 攻读研究生期间获奖情况
  • 学位论文评阅及答辩情况表
  • 文章来源

    类型: 硕士论文

    作者: 郑妙

    导师: 崔立真

    关键词: 众包质量控制,工人模型,最大似然估计,优化算法

    来源: 山东大学

    年度: 2019

    分类: 基础科学

    专业: 数学

    单位: 山东大学

    分类号: O213.1

    总页数: 67

    文件大小: 4104K

    下载量: 125

    相关论文文献

    • [1].基于众包的财务共享服务初探[J]. 纳税 2019(35)
    • [2].一种基于众包模式的试题知识点标注方法[J]. 信息与管理研究 2019(06)
    • [3].众包的产生及发展[J]. 西部皮革 2020(06)
    • [4].国内众包模式研究的空间分布、热点与趋势——基于中国知网数据库2006—2019年数据分析[J]. 郑州轻工业学院学报(社会科学版) 2020(01)
    • [5].考虑用户时空行为的众包任务推荐方法[J]. 计算机工程与应用 2020(09)
    • [6].空间众包技术综述[J]. 冶金管理 2020(03)
    • [7].众包激励的交互设计策略研究——以风陵渡地区末端快递众包为例[J]. 工业工程设计 2019(01)
    • [8].众包翻译平台的伦理问题及其对策:多案例对比研究[J]. 中国翻译 2020(04)
    • [9].“众包模式”对现代企业管理模式创新的启示研究[J]. 中国商论 2020(17)
    • [10].基于众包工人移动轨迹的任务推荐模型[J]. 计算机科学 2020(10)
    • [11].广东科研众包平台的发展动向分析[J]. 科技创新发展战略研究 2019(03)
    • [12].众包法律问题探究[J]. 合作经济与科技 2019(18)
    • [13].科研众包平台发展现状与对策——基于国际、国内、广东省科研众包培育平台案例的分析[J]. 科技创新发展战略研究 2019(05)
    • [14].基于微分博弈的网络众包违约风险控制机制研究[J]. 系统工程理论与实践 2019(10)
    • [15].高可信众包群体构建方法[J]. 中国科学:信息科学 2019(11)
    • [16].众包在项目翻译教学中的应用初探[J]. 上海翻译 2017(06)
    • [17].众包的行业应用研究述评[J]. 长安大学学报(社会科学版) 2017(05)
    • [18].国内图书馆众包研究文献综述[J]. 知识管理论坛 2018(02)
    • [19].关于档案众包的分析与研究[J]. 山东档案 2018(04)
    • [20].国外政府资助型科研众包研究综述[J]. 中国科技论坛 2016(12)
    • [21].人力资源众包服务平台应用研究[J]. 企业改革与管理 2017(07)
    • [22].嵌入还是卷入:众包个体缘何贡献知识?[J]. 科研管理 2017(05)
    • [23].众包十年背景下的众筹新闻再考察[J]. 青年记者 2017(17)
    • [24].基于万众创新的科研众包研究:定义、理论内涵与启示[J]. 自然辩证法通讯 2017(04)
    • [25].科研众包模式下图书馆支持服务研究[J]. 图书馆研究 2017(04)
    • [26].知识经济中的众包共享让我们更民主吗?[J]. 商学院 2017(07)
    • [27].众包翻译的可持续发展途径[J]. 黑龙江教育学院学报 2017(11)
    • [28].科学研究可以众包吗?[J]. 图书情报知识 2017(06)
    • [29].众包出版:新兴出版模式探析[J]. 科技与出版 2015(12)
    • [30].汽车“众包”,打了谁的脸?[J]. 时代汽车 2016(04)

    标签:;  ;  ;  ;  

    基于最大似然估计的众包质量控制优化方法研究
    下载Doc文档

    猜你喜欢