Print

基于注意力机制的恶意软件调用序列检测

论文摘要

传统的机器学习方法通过构造特征来学习分类器,面对嵌入大量反检测功能的恶意软件不具有鲁棒性。攻击者通过打乱恶意软件代码或插入无关代码来逃避检测。针对互联网环境下恶意软件数目众多、混淆技术进步、人工构造特征成本高等问题,文中提出一种基于循环神经网络和注意力机制的恶意软件检测方法(G2ATT)。首先,在沙盒环境下运行软件获取其动态调用序列(API),并通过滑动窗口划分得到窗口子序列;其次,引入多示例学习和注意力机制来构建层次化特征抽取的深度神经网络,使用循环神经网络抽取API特征,结合两个注意力机制分别抽取窗口特征和序列特征,并使用序列特征检测恶意软件;最后,使用真实数据训练网络,以便使用得到的模型对未知恶意软件进行检测。基于真实数据集的实验结果表明,窗口特征抽取层和序列特征抽取层能够有效学习窗口内和窗口间的注意力权重,从而更好地描绘序列的特征,提升模型的查准率和查全率。G2ATT对未知恶意软件检测的准确率达到98.19%,查准率达到98.78%,查全率达到97.60%,AUC (Area Under the Curve of ROC)达到99%,比基于API调用序列的SVM、随机森林、朴素贝叶斯等方法的准确率提高了10%以上。

论文目录

  • 1 引言
  • 2 研究现状分析
  • 3 基于注意力机制的恶意软件检测
  •   3.1 模型描述
  •     1)输入层:
  •     2)API特征学习层(API-level Feature Extraction La-yer):
  •     3)窗口特征抽取层(Window-level Feature Extraction Layer):
  •     4)序列特征抽取层(Sequence-level Feature Extraction Layer):
  •     5)输出层:
  •   3.2 输入层
  •     3.2.1 API序列的向量表示
  •     3.2.2 子序列建模
  •   3.3 API特征学习层
  •   3.4 窗口特征抽取层
  •   3.5 序列特征抽取层
  •   3.6 输出层
  •   3.7 目标函数
  • 4 实验
  •   4.1 数据集
  •   4.2 评估
  •     1)查准率:
  •     2)查全率:
  •     3)准确率:
  •     4)特征曲线(ROC)和曲线区域面积(AUC):
  •   4.3 参数设置
  •   4.4 实验1 检测未知恶意软件
  •   4.5 实验2 参数选择
  • 文章来源

    类型: 期刊论文

    作者: 张岚,来耀,叶晓俊

    关键词: 恶意样本检测,深度学习,注意力机制,调用序列

    来源: 计算机科学 2019年12期

    年度: 2019

    分类: 信息科技

    专业: 计算机软件及计算机应用,自动化技术

    单位: 清华大学软件学院

    基金: 国家重点研究计划项目(2019QY1402)资助

    分类号: TP18;TP309;TP311.53

    页码: 132-137

    总页数: 6

    文件大小: 685K

    下载量: 152

    相关论文文献

    本文来源: https://www.lunwen90.cn/article/4a7591c1a815202100a0c453.html