全文摘要
本发明公开一种脚本用户识别方法,包括:通过规则单元分别对每个游戏用户进行标记得到第一标记结果;通过无监督机器学习单元分别对每个游戏用户进行标记得到第二标记结果;根据所述第一标记结果和第二标记结果,通过有监督机器学习单元分别对每个游戏用户进行标记得到第三标记结果;根据所述第三标记结果,通过有监督机器学习模块训练得到有监督机器学习模型;通过所述有监督机器学习模型分别对每个游戏用户进行异常度打分,分值超过第一阈值的游戏用户标记为脚本用户。本发明可以提高系统的脚本用户识别能力,自适应性好,并且让脚本用户难以通过总结规律而躲避系统的识别。
主设计要求
1.脚本用户识别方法,其特征在于,包括:通过规则单元分别对每个游戏用户进行标记得到第一标记结果,所述第一标记结果包括第一正常用户集和第一异常用户集;通过无监督机器学习单元分别对每个游戏用户进行标记得到第二标记结果,所述第二标记结果包括第二正常用户集、第二异常用户集和不确定用户集;根据所述第一标记结果和第二标记结果,通过有监督机器学习单元分别对每个游戏用户进行标记得到第三标记结果,所述第三标记结果包括第三正常用户集和第三异常用户集;根据所述第三标记结果,通过有监督机器学习单元中的有监督机器学习模块训练得到有监督机器学习模型;通过所述有监督机器学习模型分别对每个游戏用户进行异常度打分,分值超过第一阈值的游戏用户标记为脚本用户;其中,所述根据所述第一标记结果和第二标记结果,通过有监督机器学习单元对所有游戏用户进行标记得到第三标记结果包括:根据第一标记结果和第二标记结果,将同时属于第一正常用户集和第二正常用户集的游戏用户标记为第三正常用户,将同时属于第一异常用户集和第二异常用户集的游戏用户标记为第三异常用户,将属于第一正常用户集且属于第二异常用户集的游戏用户标记的第三异常用户,将属于第一异常用户集且属于第二正常用户集的用户加入已有的不确定用户集;其中,所有第三正常用户构成第三正常用户集,所有第三异常用户构成第三异常用户集;其中,所述根据所述第三标记结果,通过有监督机器学习单元中的有监督机器学习模块训练得到有监督机器学习模型包括:分别获取每个游戏用户的第二行为数据,所述第二行为数据为游戏用户在游戏内的行为特征数据,每个第二行为数据包括相应游戏用户的ID;根据第三异常用户集中每个游戏用户的ID,得到第三异常用户集中每个游戏用户的第二行为数据,第三异常用户集中所有游戏用户的第二行为数据一起构成异常样本;根据第三正常用户集中每个游戏用户的ID,得到第三正常用户集中每个游戏用户的第二行为数据,第三正常用户集中所有游戏用户的第二行为数据一起构成正常样本;将所述异常样本和正常样本一起作为有监督机器学习单元中的有监督机器学习模块的训练样本,训练得到有监督机器学习模型。
设计方案
1.脚本用户识别方法,其特征在于,包括:
通过规则单元分别对每个游戏用户进行标记得到第一标记结果,所述第一标记结果包括第一正常用户集和第一异常用户集;
通过无监督机器学习单元分别对每个游戏用户进行标记得到第二标记结果,所述第二标记结果包括第二正常用户集、第二异常用户集和不确定用户集;
根据所述第一标记结果和第二标记结果,通过有监督机器学习单元分别对每个游戏用户进行标记得到第三标记结果,所述第三标记结果包括第三正常用户集和第三异常用户集;
根据所述第三标记结果,通过有监督机器学习单元中的有监督机器学习模块训练得到有监督机器学习模型;
通过所述有监督机器学习模型分别对每个游戏用户进行异常度打分,分值超过第一阈值的游戏用户标记为脚本用户;
其中,所述根据所述第一标记结果和第二标记结果,通过有监督机器学习单元对所有游戏用户进行标记得到第三标记结果包括:
根据第一标记结果和第二标记结果,将同时属于第一正常用户集和第二正常用户集的游戏用户标记为第三正常用户,将同时属于第一异常用户集和第二异常用户集的游戏用户标记为第三异常用户,将属于第一正常用户集且属于第二异常用户集的游戏用户标记的第三异常用户,将属于第一异常用户集且属于第二正常用户集的用户加入已有的不确定用户集;
其中,所有第三正常用户构成第三正常用户集,所有第三异常用户构成第三异常用户集;
其中,所述根据所述第三标记结果,通过有监督机器学习单元中的有监督机器学习模块训练得到有监督机器学习模型包括:
分别获取每个游戏用户的第二行为数据,所述第二行为数据为游戏用户在游戏内的行为特征数据,每个第二行为数据包括相应游戏用户的ID;
根据第三异常用户集中每个游戏用户的ID,得到第三异常用户集中每个游戏用户的第二行为数据,第三异常用户集中所有游戏用户的第二行为数据一起构成异常样本;
根据第三正常用户集中每个游戏用户的ID,得到第三正常用户集中每个游戏用户的第二行为数据,第三正常用户集中所有游戏用户的第二行为数据一起构成正常样本;
将所述异常样本和正常样本一起作为有监督机器学习单元中的有监督机器学习模块的训练样本,训练得到有监督机器学习模型。
2.根据权利要求1所述的脚本用户识别方法,其特征在于,所述通过规则单元分别对每个游戏用户进行标记得到第一标记结果包括:
分别获取每个游戏用户的登录\/注册数据,每个登录\/注册数据中包括相应游戏用户的ID;
分别判断每个游戏用户的登录\/注册数据是否违反预设规则,如果是,标记为第一异常用户,否则,标记为第一正常用户;
其中,所有第一正常用户构成第一正常用户集,所有第一异常用户构成第一异常用户集。
3.根据权利要求2所述的脚本用户识别方法,其特征在于,所述通过无监督机器学习单元对所有游戏用户进行标记得到第二标记结果包括:
分别获取每个游戏用户的第一行为数据,所述第一行为数据为游戏用户在游戏内不同游戏场景中的行为拓扑数据,每个第一行为数据中包括相应游戏用户的ID;
根据第一行为数据,采用高密子图挖掘算法对每个游戏用户进行嫌疑度打分,分值超过第二阈值的游戏用户标记为第二异常用户,分值低于第三阈值的游戏用户标记为第二正常用户,分值在第二阈值与第三阈值之间的游戏用户标记为不确定用户;
其中,所有第二正常用户构成第二正常用户集,所有第二异常用户构成第二异常用户集,所有不确定用户构成不确定用户集。
4.根据权利要求3所述的脚本用户识别方法,其特征在于,所述将所述异常样本和正常样本一起作为有监督机器学习单元中的有监督机器学习模块的训练样本,训练得到有监督机器学习模型这一步骤包括:
分别抽出预设比例的异常样本和正常样本,将抽出的异常样本和正常样本一起作为有监督机器学习单元中的有监督机器学习模块的训练样本,训练得到初始模型;
将剩余的异常样本和剩余的正常样本一起作为验证样本对所述初始模型进行验证,验证合格,所述初始模型为所述有监督机器学习模型。
5.根据权利要求3所述的脚本用户识别方法,其特征在于,所述通过所述有监督机器学习模型分别对每个游戏用户进行异常度打分,分值超过第一阈值的游戏用户标记为脚本用户包括:
分别将每个游戏用户的第二行为数据作为所述有监督机器学习模型的输入参数,得到每个游戏用户的异常度打分分值;
分别判断每个游戏用户的异常度打分分值是否超过第一阈值,将异常度打分分值超过第一阈值的游戏用户标记为脚本用户。
6.根据权利要求1所述的脚本用户识别方法,其特征在于,还包括:
直接将第一异常用户集中的游戏用户标记为脚本用户。
7.脚本用户识别系统,其特征在于,包括:
规则单元:用于分别对每个游戏用户进行标记得到第一标记结果,所述第一标记结果包括第一正常用户集和第一异常用户集;
无监督机器学习单元:用于分别对每个游戏用户进行标记得到第二标记结果,所述第二标记结果包括第二正常用户集、第二异常用户集和不确定用户集;
有监督机器学习单元:用于根据所述第一标记结果和第二标记结果,分别对每个游戏用户进行标记得到第三标记结果,所述第三标记结果包括第三正常用户集、第三异常用户集和不确定用户集;所述有监督机器学习单元包括有监督机器学习模块,所述有监督机器学习模块根据所述第三标记结果训练得到有监督机器学习模型,所述有监督机器学习模型分别对每个游戏用户进行异常度打分,分值超过第一阈值的游戏用户标记为脚本用户;
其中,有监督机器学习单元的工作方法包括:
根据第一标记结果和第二标记结果,将同时属于第一正常用户集和第二正常用户集的游戏用户标记为第三正常用户,将同时属于第一异常用户集和第二异常用户集的游戏用户标记为第三异常用户,将属于第一正常用户集且属于第二异常用户集的游戏用户标记的第三异常用户,将属于第一异常用户集且属于第二正常用户集的用户加入已有的不确定用户集;
其中,所有第三正常用户构成第三正常用户集,所有第三异常用户构成第三异常用户集;
其中,所述有监督机器学习模块的工作方法包括:
分别获取每个游戏用户的第二行为数据,所述第二行为数据为游戏用户在游戏内的行为特征数据,每个第二行为数据包括相应游戏用户的ID;
根据第三异常用户集中每个游戏用户的ID,得到第三异常用户集中每个游戏用户的第二行为数据,第三异常用户集中所有游戏用户的第二行为数据一起构成异常样本;
根据第三正常用户集中每个游戏用户的ID,得到第三正常用户集中每个游戏用户的第二行为数据,第三正常用户集中所有游戏用户的第二行为数据一起构成正常样本;
将所述异常样本和正常样本一起作为有监督机器学习单元中的有监督机器学习模块的训练样本,训练得到有监督机器学习模型。
设计说明书
技术领域
本发明涉及脚本用户识别领域,具体涉及一种脚本用户识别方法及系统。
背景技术
游戏中存在大量的脚本用户,这些脚本用户通过一些操作来不公平地牟取游戏内的资源,影响其他正常游戏用户体验,对游戏运营和服务器造成额外开支。现有的脚本用户识别方法主要是通过设置规则(比如设置阈值),如果某个用户通过单一IP重复登录不同账号的行为违反设置的规则(或超出设置的阈值),则将该用户识别为脚本用户,但是这样的识别方式很容易让脚本用户通过多次尝试发现阈值从而躲避系统的识别。
发明内容
为克服现有技术的不足,本申请的一方面在于提供一种脚本用户识别方法,通过采用无监督机器学习和有监督机器学习相结合的方式对脚本用户进行识别,自适应性好,可以提高系统的脚本用户识别能力,并且让脚本用户难以通过总结规律而躲避系统的识别。本方法通过下面的技术手段实现:
脚本用户识别方法,包括:
通过规则单元分别对每个游戏用户进行标记得到第一标记结果,所述第一标记结果包括第一正常用户集和第一异常用户集;
通过无监督机器学习单元分别对每个游戏用户进行标记得到第二标记结果,所述第二标记结果包括第二正常用户集、第二异常用户集和不确定用户集;
根据所述第一标记结果和第二标记结果,通过有监督机器学习单元分别对每个游戏用户进行标记得到第三标记结果,所述第三标记结果包括第三正常用户集和第三异常用户集;
根据所述第三标记结果,通过有监督机器学习单元中的有监督机器学习模块训练得到有监督机器学习模型;
通过所述有监督机器学习模型分别对每个游戏用户进行异常度打分,分值超过第一阈值的游戏用户标记为脚本用户。
进一步地,所述通过规则单元分别对每个游戏用户进行标记得到第一标记结果包括:
分别获取每个游戏用户的登录\/注册数据,每个登录\/注册数据中包括相应游戏用户的ID;
分别判断每个游戏用户的登录\/注册数据是否违反预设规则,如果是,标记为第一异常用户,否则,标记为第一正常用户;
其中,所有第一正常用户构成第一正常用户集,所有第一异常用户构成第一异常用户集。
进一步地,所述通过无监督机器学习单元对所有游戏用户进行标记得到第二标记结果包括:
分别获取每个游戏用户的第一行为数据,所述第一行为数据为游戏用户在游戏内不同游戏场景中的行为拓扑数据,每个第一行为数据中包括相应游戏用户的ID;
根据第一行为数据,采用高密子图挖掘算法对每个游戏用户进行嫌疑度打分,分值超过第二阈值的游戏用户标记为第二异常用户,分值低于第三阈值的游戏用户标记为第二正常用户,分值在第二阈值与第三阈值之间的游戏用户标记为不确定用户;
其中,所有第二正常用户构成第二正常用户集,所有第二异常用户构成第二异常用户集,所有不确定用户构成不确定用户集。
进一步地,所述根据所述第一标记结果和第二标记结果,通过有监督机器学习单元对所有游戏用户进行标记得到第三标记结果包括:
根据第一标记结果和第二标记结果,将同时属于第一正常用户集和第二正常用户集的游戏用户标记为第三正常用户,将同时属于第一异常用户集和第二异常用户集的游戏用户标记为第三异常用户,将属于第一正常用户集且属于第二异常用户集的游戏用户标记的第三异常用户,将属于第一异常用户集且属于第二正常用户集的用户加入已有的不确定用户集;
其中,所有第三正常用户构成第三正常用户集,所有第三异常用户构成第三异常用户集。
进一步地,所述根据所述第三标记结果,通过有监督机器学习单元中的有监督机器学习模块训练得到有监督机器学习模型包括:
分别获取每个游戏用户的第二行为数据,所述第二行为数据为游戏用户在游戏内的行为特征数据,每个第二行为数据包括相应游戏用户的ID;
根据第三异常用户集中每个游戏用户的ID,得到第三异常用户集中每个游戏用户的第二行为数据,第三异常用户集中所有游戏用户的第二行为数据一起构成异常样本;
根据第三正常用户集中每个游戏用户的ID,得到第三正常用户集中每个游戏用户的第二行为数据,第三正常用户集中所有游戏用户的第二行为数据一起构成正常样本;
将所述异常样本和正常样本一起作为有监督机器学习单元中的有监督机器学习模块的训练样本,训练得到有监督机器学习模型。
进一步地,所述将所述异常样本和正常样本一起作为有监督机器学习单元中的有监督机器学习模块的训练样本,训练得到有监督机器学习模型这一步骤包括:
分别抽出预设比例的异常样本和正常样本,将抽出的异常样本和正常样本一起作为有监督机器学习单元中的有监督机器学习模块的训练样本,训练得到初始模型;
将剩余的异常样本和剩余的正常样本一起作为验证样本对所述初始模型进行验证,验证合格,所述初始模型为所述有监督机器学习模型。
进一步地,所述通过所述有监督机器学习模型分别对每个游戏用户进行异常度打分,分值超过第一阈值的游戏用户标记为脚本用户包括:
分别将每个游戏用户的第二行为数据作为所述有监督机器学习模型的输入参数,得到每个游戏用户的异常度打分分值;
分别判断每个游戏用户的异常度打分分值是否超过第一阈值,将异常度打分分值超过第一阈值的游戏用户标记为脚本用户。
进一步地,所述方法还包括:
直接将第一异常用户集中的游戏用户标记为脚本用户。
本申请的另一方面在于提供一种脚本用户识别系统,包括:
规则单元:用于分别对每个游戏用户进行标记得到第一标记结果,所述第一标记结果包括第一正常用户集和第一异常用户集;
无监督机器学习单元:用于分别对每个游戏用户进行标记得到第二标记结果,所述第二标记结果包括第二正常用户集、第二异常用户集和不确定用户集;
有监督机器学习单元:用于根据所述第一标记结果和第二标记结果,分别对每个游戏用户进行标记得到第三标记结果,所述第三标记结果包括第三正常用户集、第三异常用户集和不确定用户集;
所述有监督机器学习单元包括有监督机器学习模块,所述有监督机器学习模块根据所述第三标记结果训练得到有监督机器学习模型,所述有监督机器学习模型分别对每个游戏用户进行异常度打分,分值超过第一阈值的游戏用户标记为脚本用户。
本发明通过采用无监督机器学习和有监督机器学习相结合的方式对脚本用户进行识别,自适应性好,可以提高系统的脚本用户识别能力,并且让脚本用户难以通过总结规律而躲避系统的识别。
附图说明
图1 为根据一示例性实施例示出的一种脚本用户识别方法流程图。
图2为根据一示例性实施例示出的一种脚本用户识别系统结构框图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合附图和具体实施例对本发明作进一步的详细说明。
实施例
如图1所示,本实施例提供一种脚本用户识别方法,包括:
S1:通过规则单元分别对每个游戏用户进行标记得到第一标记结果,所述第一标记结果包括第一正常用户集和第一异常用户集;
S2:通过无监督机器学习单元分别对每个游戏用户进行标记得到第二标记结果,所述第二标记结果包括第二正常用户集、第二异常用户集和不确定用户集;
S3:根据所述第一标记结果和第二标记结果,通过有监督机器学习单元分别对每个游戏用户进行标记得到第三标记结果,所述第三标记结果包括第三正常用户集和第三异常用户集;
S4:根据所述第三标记结果,通过有监督机器学习单元中的有监督机器学习模块训练得到有监督机器学习模型;
S5:通过所述有监督机器学习模型分别对每个游戏用户进行异常度打分,分值超过第一阈值的游戏用户标记为脚本用户。
这里需要说明的是,规则单元用于实时拦截高度异常的游戏用户,标记出的第一异常用户集可以直接标记为脚本用户,对标记出的脚本用户可以直接放入黑名单,由于规则单元的标记方式虽然准确率高,但是可能存在一定的漏标情况,所以需要结合后面的无监督机器学习单元和有监督机器学习单元,实际上,规则单元和无监督机器学习单元均先按照自己的方式对游戏用户分别进行标记,有监督机器学习单元在规则单元标记结果和无监督机器学习单元标记结果的基础上进行整合得到准确率高同时漏标率低的第三标记结果,根据第三标记结果,再通过有监督机器学习单元训练得到有监督机器学习模型,由于脚本用户很难得知有监督机器学习模型的打分规则,因此也很难躲避系统的识别,使得本实施例提供的脚本用户识别方法自适应性好,对脚本用户的识别能力高。
作为优选,所述通过规则单元分别对每个游戏用户进行标记得到第一标记结果,即步骤S1,包括:
S11:分别获取每个游戏用户的登录\/注册数据,每个登录\/注册数据中包括相应游戏用户的ID;
S12:分别判断每个游戏用户的登录\/注册数据是否违反预设规则,如果是,标记为第一异常用户,否则,标记为第一正常用户;
其中,所有第一正常用户构成第一正常用户集,所有第一异常用户构成第一异常用户集。
这里,规则单元的标记规则可以是:首先获取到数据库(所有的用户数据均在数据库中)中所有用户的登录\/注册时间、登录\/注册的IP地址、登录\/注册的设备ID,根据获取到的这些数据统计出IP登录用户数量、IP注册用户数量、设备登录用户数量、设备注册用户数量,规则单元中设置有规则阈值,如果游戏用户的登录所在的IP、设备号(或设备ID)在一定时间内的统计数据(IP登录用户数量、IP注册用户数量、设备登录用户数量、设备注册用户数量)超过规则阈值,则规则单元将该游戏用户标记为脚本用户,其中,规则阈值是上面提及的一系列统计指标的预设值,比如IP连续登录用户数量、设备连续登录用户数量(连续指每次登录间隔时间较小,例如10秒)、IP过去一周注册用户数量、设备过去一周注册用户数量等,正常游戏用户的各项统计指标值应分别小于相应的规则阈值。
作为优选,所述通过无监督机器学习单元对所有游戏用户进行标记得到第二标记结果,即步骤S2,包括:
S21:分别获取每个游戏用户的第一行为数据,所述第一行为数据为游戏用户在游戏内不同游戏场景中的行为拓扑数据,每个第一行为数据中包括相应游戏用户的ID;
S22:根据第一行为数据,采用高密子图挖掘算法对每个游戏用户进行嫌疑度打分,分值超过第二阈值的游戏用户标记为第二异常用户,分值低于第三阈值的游戏用户标记为第二正常用户,分值在第二阈值与第三阈值之间的游戏用户标记为不确定用户;
其中,所有第二正常用户构成第二正常用户集,所有第二异常用户构成第二异常用户集,所有不确定用户构成不确定用户集。
这里,第一行为数据为游戏用户在游戏内的行为拓扑数据,第一行为数据的具体数据形式可以理解为游戏用户在游戏内参加不同游戏内容,获取不同道具的记录,一个用户对应多条数据,数量不固定,采用高密子图挖掘算法(高维异构图高密度子图挖掘类算法,比如ZOOM,DCUBE等)将游戏内每个游戏用户参与不同场景获取不同道具的行为抽象成为一个高维异构图并对每个游戏用户的嫌疑度打分。
作为优选,所述根据所述第一标记结果和第二标记结果,通过有监督机器学习单元对所有游戏用户进行标记得到第三标记结果,即步骤S3,包括:
根据第一标记结果和第二标记结果,将同时属于第一正常用户集和第二正常用户集的游戏用户标记为第三正常用户,将同时属于第一异常用户集和第二异常用户集的游戏用户标记为第三异常用户,将属于第一正常用户集且属于第二异常用户集的游戏用户标记的第三异常用户,将属于第一异常用户集且属于第二正常用户集的用户加入已有的不确定用户集;
其中,所有第三正常用户构成第三正常用户集,所有第三异常用户构成第三异常用户集。
为了好理解,如下表所示,√表示正常用户,×表示异常用户,—表示不确定用户。其中,规则单元对应的是第一正常用户和第一异常用户;无监督机器学习单元对应的是第二正常用户、第二异常用户和不确定用户;有监督机器学习单元对应的第三正常用户和第三异常用户,剩下的为不确定用户。
申请码:申请号:CN201910658519.1 申请日:2019-07-22 公开号:CN110152306A 公开日:2019-08-23 国家:CN 国家/省市:90(成都) 授权编号:CN110152306B 授权时间:20191115 主分类号:G06F 16/30 专利分类号:G06F16/30 范畴分类:40B; 申请人:成都卓杭网络科技股份有限公司 第一申请人:成都卓杭网络科技股份有限公司 申请人地址:610041 四川省成都市自由贸易试验区成都高新区吉泰三路8号1栋1单元23层1号 发明人:蒲若坤 第一发明人:蒲若坤 当前权利人:成都卓杭网络科技股份有限公司 代理人:李华;温黎娟 代理机构:51237 代理机构编号:成都市集智汇华知识产权代理事务所(普通合伙) 51237 优先权:关键词:当前状态:审核中 类型名称:外观设计相关信息详情