摘 要:在众包技术的实际应用当中,不可靠的工人会受到利益驱使而产生欺诈行为。提交的众包结果严重降低了众包结果质量,同时带来了原始需求者决策的偏差。在本文中,我们创新的提出了一种基于心理行为分析的众包欺诈检测方法。该方法基于心理学经典理论艾宾浩斯遗忘曲线,能够发现并量化欺诈者与可信者心理层面的差异。评测结果表明方法有效并且可行,有助于改善众包结果质量,并且可以用于众包质量控制。
关键词:众包;遗忘曲线;欺诈检测
1 概述
人工智能,信息检索,机器翻译以及自然语言处理等科学领域,严重依赖大规模用于系统建立、训练和评估的语料库[1]。传统的获取这些数据集的方法是通过雇佣人类专家去标记或创立关联材料。例如在信息检索领域中,文本检索会议各种大规模语料库的创建[2]。这种消耗大量金钱和时间的资源获取方式驱使学术界致力于自动产生或者提取资源方法的研究。然而对于一些对精度需求很高的应用,人工判断仍然不可或缺。特别是在资源几乎不可重用的情况下,对数据获取方式的需求变得尤为显著。在此背景下,一种基于互联网迅猛发展而产生的新型商业生产组织形式和协作模式——众包[3]。通过众包技术,大量分散的在线人类智能得到有效收集与利用,使得那些对于计算机很难执行而对于人类却简单易行的任务得以完成,同时为获取大规模人工数据资源提供了快捷有效的途径。
近五年,众包技术的卓越特性吸引到了全球范围内研究学者的注意并在一些具体应用中进行了实践。例如,斯坦福大学Gottlieb Assaf 等人利用众包技术采集到了药品不良反应程度的数据,有助于为药物的风险和收益评估和药物不良反应的分诊预测提供支持[4];除此之外,众包技术还被应用到软件测试,内容筛选以及标记机器学习训练集等领域。另外,Amazon 等众多网络公司发掘了众包在解决人类智能任务中的积极作用。任务需求者通过此平台以小额报酬来吸引大规模在线智慧群体快速解决HIT 问题,此模式已广泛用于数据收集,资源注释与校验中[4]。主流的众包模式通过基于经济奖励制度的方式召集不确定大众解决实际难题,使得市场中欺诈者的比重不断增加。这些工人本着最大化经济收益的目的,提交大量快速通用的或非反射的答案,于是降低了语料库质量。为了应对这一趋势,基于众包的研究工作如今不得不致力于控制众包结果质量。
基于文体学的视角研究弗罗斯特的诗歌《雪夜林畔小驻》,彰显了这首诗歌的独特文体魅力,也突出了弗罗斯特的写作风格,即语言形式简单朴实,主题意义深远丰富。总之,文体学理论在研究英语诗歌方面提供了新的思路,基于文体学角度分析英语诗歌,可以促进读者领略到其文体语言的魅力,达到更好地欣赏英语诗歌的目的,亦可促进文体学理论的发展,使其愈加成熟。
2)调查问卷,此问卷以Glynn&Koballa(2006)的理论为框架基础,对实验对象词汇学习过程中的重复率,多维性,趣味性,学习焦虑感等几个方面进行问卷调查。问卷的α信度系数为0.805,说明问卷信度良好。
在众包过程中,工人欺诈行为的出现伴随着欺诈者的心理状态变化。欺骗的本质是心理活动在行为上的表现,心理学方法可以在一定范围内对行为进行分析,有效的判断人们的心理活动。因此我们认为使用心理学方法解决众包欺诈检测问题具有现实意义,并且创新地提出一种基于心理行为分析的众包欺诈检测方法。该方法应用艾宾浩斯遗忘规律判断众包工人的行为正常与否,还能找出欺诈与可靠行为之间的差异。
2 心理行为分析与众包欺诈检测
人类记忆揭示了记忆过程,大脑在接收到输入信息后,通过人的注意后产生记忆。为了揭示人类记忆和遗忘的基本规律,德国心理学家H·艾宾浩斯进行了系统研究他用节省法计算保持和遗忘的信息量,对记忆进行严格数量化的测定并提出了时间与记忆的函数关系。众包中的欺诈者常分成两种基本类型:一种是随机型,随机提交结果,这种工人是十分难识别的;另一种是统一型,它们有规律的提交结果,这种类型的欺诈者相对较容易被发现。因此本文专注于识别第一种众包欺诈者。我们的检测方法的原理是众包工人在处理众包任务时会因不同的心理状态产生不同的记忆程度。无论工人是属于欺诈类型还是可信类型,他们的行为都是心理活动的外在表现。众包中可信型工人会严格遵守要求并伴随认真的思考,因此大脑中会产生深刻记忆。这是人类记忆的一般进程,符合艾宾浩斯记忆规律。然而欺诈者会花费一点时间或者在众包任务中几乎不耗费精力,只是机械性的完成任务。这样的行为会导致他们缺少对任务内容的理解性记忆,他们的遗忘状态不符合艾宾浩斯的遗忘规律。
2.1 艾宾浩斯遗忘曲线
心理行为分析艾宾浩斯遗忘规律和曲线是心理学领域中的经典理论和应用方法,其揭露了人类记忆与遗忘的规律。近年来随着信息技术的迅猛发展,越来越多的学者将遗忘曲线引入到计算机科学领域加以应用。
2.2 我们的欺诈检测算法
此系统是应用于众包中的质量控制方法,其创新地将心理学中的艾宾浩斯记忆理论与计算机技术结合,此方法进行欺诈检测的详细程序流程由这四个系统关键部分的具体实现以及它们之间的具体交流方式组成。解决在众包工作中的工人存在欺诈行为的问题。
图1 基于心理学行为分析的众包欺诈检测方法的流程图
众包欺诈检测系统主要是为众包任务需求者选择高质量的众包结果以及众包工人(流程如图1 所示)。某个工人对原始数据文档的关联性进行打分贴标签,根据打分的时间以及次数将文档动态地分组。随着任务的推进,系统会依据该工人记忆特性在工作时间以及分组所得的文档子集上的反映,对工人完成的任务进行打分并检测工人的欺诈行为。方法通过四种模块阶段来呈现众包欺诈检测的过程:(1)时钟控制模块:本模块对整个系统的全局进行时间控制,从工人着手工作开始计时。当达到预定的时间点时,触发各个模块执行特定功能。此外,工人的工作时间长度量还要参与标签质量控制和工人质量控制等模块的计算过程。(2)数据分组模块:本模块根据工人对各个文档打分后保持当前状态不变的时间长度以及文档被重复打分的次数,将文档阶段性地分组并且将达到标准的文档传送到其他模块进行处理。此模块中包含三个子数据集O、W 和T,用于阶段性地存储分组数据,并且不断地把文档定时重新呈献给用户再次打分。(3)标签质量控制模块:本模块是此操作系统的核心模块之一,其依据是工人记忆会随着时间的推移而减退,并且针对认真程度不同的打分,记忆的清晰程度也同样不同。根据工人的记忆在工作时间以及多次打分一致程度上的反映,此模块阶段性地对各工人所完成任务的标签质量进行评估,并将其与阈值相比较筛选出质量合格的标签。(4)工人质量控制模块:本模块同样是此系统的核心部分,其功能的实现依赖于以上三个模块的输出,根据工人在各时间段的表现以及完成任务的质量,检测工人的欺诈行为,识别并过滤那些不可信的工人。
稻壳中微生物检测采用平板菌落计数法,即将样品经一系列梯度稀释后与培养基混合制成平板,经过培养进行菌落计数。
3 结论
本文核心是心理学行为分析方法,为众包欺诈检测问题提出了一个有效的解决策略。通过对欺诈者和可信者行为的系统分析,找到工人工作的认真程度会反映在记忆程度上。于是创新的提出应用心理学领域中经典的艾宾浩斯遗忘规律识别众包欺诈行为以及他们提交的任务。这是一次激动人心的探索,因为我们成功的将数学化的心理学方法引入到计算机科学领域,以验证我们的方法的有效性。
参考文献:
[1]王桂云众包竞赛中任务发布方对参与者行为的影响研究[D].济南:山东大学2016.
[2]林素芬,林峰.众包定义、模式研究发展及展望[J].科技管理研究,2015(4).
[3]潘庆先.基于Pareto 分布的众包工人欺骗行为处理方法[J].计算机应用,2019(8).
[4]李克,刘静怡,宋晓勤.基于众包数据的OTT 业务行为建模分析[J].计算机工程,2017(10).
中图分类号:TP317
文献标识码:A
文章编号:2096-4390(2019)30-0101-02
作者简介:
于晓婷(1990-),女,黑龙江省哈尔滨市人,硕士。现为哈尔滨华德学院数据科学与人工智能学院软件工程系专业讲师,主要研究方向为软件系统分析与设计。
刘洋(1992-),男,黑龙江哈尔滨人,硕士研究生。江苏省无锡市中国电子科技集团公司第58 研究所。
标签:工人论文; 记忆论文; 模块论文; 方法论文; 心理论文; 哲学论文; 宗教论文; 心理学论文; 心理学研究方法论文; 《科学技术创新》2019年第30期论文; 哈尔滨华德学院论文; 江苏省无锡市中国电子科技集团公司第58研究所论文;