首页 | 官方网站   微博 | 高级检索  
     

基于特征工程与集成学习的恶意软件预测研究
引用本文:张银杰,揣锦华,翟晓惠.基于特征工程与集成学习的恶意软件预测研究[J].计算机时代,2020(7):7-11.
作者姓名:张银杰  揣锦华  翟晓惠
作者单位:长安大学信息工程学院,陕西 西安 710064;长安大学信息工程学院,陕西 西安 710064;长安大学信息工程学院,陕西 西安 710064
基金项目:道路基础设施智能感知理论与方法项目;基于多源信息的道路基础设施服役性能大数据集成分析方法课题;国家重点研发计划
摘    要:针对微软恶意软件预测数据集,文章结合特征工程的思想和集成学习算法实现恶意软件感染的预测。为了更好地适应算法的输入要求,对数据集进行预处理和特征构建,并提出一种利用LightGBM算法以提高预测性能的启发式搜索方式,得到最终的特征集。以筛选后的特征构成的数据集实现了LightGBM、XGBoost和CART算法的预测,并对预测性能进行了比对分析。通过完全相同的交叉验证证明,在恶意软件预测时,集成学习算法有更好的预测性能,AUC值明显高于传统决策树算法。

关 键 词:恶意软件预测  特征工程  LightGBM  XGBoost

Research on malware prediction based on feature engineering and ensemble learning
Zhang Yinjie,Chuai Jinhua,Zhai Xiaohui.Research on malware prediction based on feature engineering and ensemble learning[J].Computer Era,2020(7):7-11.
Authors:Zhang Yinjie  Chuai Jinhua  Zhai Xiaohui
Affiliation:(Chang'an University,Middle Section of Nan Erhuan Road,Xi'an,Shannxi 710064,China)
Abstract:Aiming at Microsoft malware prediction data set,this paper realizes the prediction of malware infection by combining the feature engineering idea and ensemble learning algorithm.In order to better adapt to the input requirements of the algorithm,the data set is preprocessed and constructed with features,and a heuristic search method using LightGBM algorithm to improve the prediction performance is proposed to obtain the final feature set.The prediction is realized on the data set with screened features by using LightGBM,XGBoost and CART algorithm respectively,and the prediction performance is compared and analyzed.Through the cross validation,it is proved that the ensemble learning algorithm has better prediction performance in malware prediction,and the AUC value is significantly higher than the traditional decision tree algorithm.
Keywords:malware prediction  feature engineering  LightGBM  XGBoost
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号