DOI：10.3969/j.issn.1007-130X.2023.08.012

基于预训练语言模型的安卓恶意软件检测方法

引用

摘要：

近年来,基于有监督机器学习的安卓恶意软件检测方法取得了一定进展.但是,由于恶意软件样本搜集困难,带标签的数据集规模一般较小,导致训练出的有监督模型泛化能力有限.针对这一问题,提出无监督和有监督相结合的恶意软件检测方法.首先,使用无监督方法预训练语言模型,从大量无标记APK样本中学习字节码中丰富、复杂的语义关系,提高模型的泛化能力.然后,利用有标记的恶意软件样本对语言模型进行微调,使其能更有效地检测恶意软件.在Drebin等实验数据集上的实验结果表明,相比基准方法,提出的方法泛化能力更好,检测性能更优,最高检测准确率达98.7%.

关键词：安卓、恶意软件检测、预训练语言模型、无监督学习

所属期刊栏目：45

分类号：TP391.41(计算技术、计算机技术)

资助基金：国家自然科学基金;浙江大学CAD&CG国家重点实验室开发课题;南京大学计算机软件新技术国家重点实验室开放基金;江苏省高等学校自然科学基金

在线出版日期：2023-08-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：1433-1442

英文信息展示

期刊专题