首页 | 官方网站   微博 | 高级检索  
     

流量的集成学习与重采样均衡分类方法
引用本文:顾兆军,吴优,赵春迪,周景贤.流量的集成学习与重采样均衡分类方法[J].计算机工程与应用,2020,56(6):86-91.
作者姓名:顾兆军  吴优  赵春迪  周景贤
作者单位:1.中国民航大学 信息安全测评中心,天津 300300 2.中国民航大学 中欧航空工程师学院,天津 300300 3.中国民航大学 计算机科学与技术学院,天津 300300
基金项目:民航安全能力建设项目;中央高校基本科研业务费专项
摘    要:针对传统基于机器学习的流量分类方法中数据不均衡影响分类效果的问题,提出了一种基于重采样的梯度增强树算法。该算法利用流量数据的统计特征,通过回溯搜索策略优化特征集合并设计适用于流量分类的树结构参数,构造最优模型;利用结合重采样的LightGBM算法修正数据不平衡性并进行分类测试。经实验验证,该算法提高了不平衡数据的分类效果,并且具有性能稳定、快速的优点。

关 键 词:机器学习  集成学习  数据不平衡  网络流量  重采样  

Resampling and Boosting Techniques for Balanced Traffic Classification
GU Zhaojun,WU You,ZHAO Chundi,ZHOU Jingxian.Resampling and Boosting Techniques for Balanced Traffic Classification[J].Computer Engineering and Applications,2020,56(6):86-91.
Authors:GU Zhaojun  WU You  ZHAO Chundi  ZHOU Jingxian
Affiliation:1.Information Security Evaluation Center of Civil Aviation, Civil Aviation University of China, Tianjin 300300, China 2.Sino-European Institute of Aeronautical Engineering, Civil Aviation University of China, Tianjin 300300, China 3.College of Computer Science and Technology, Civil Aviation University of China, Tianjin 300300, China
Abstract:Since the data imbalance affects the accuracy of the traffic classification based on machine learning,a traffic classification algorithm based on ensemble learning and resampling RES-LGBM is tailored.The algorithm uses statistical features of traffic flows,and optimizes the feature set by backtracking search method.After determination of optimal tree structure,the RES-LGBM is employed to eliminate the data imbalance and test the classification result.The test result shows that the algorithm enhances the classification of imbalanced data with high efficiency and stablility.
Keywords:machine learning  ensemble learning  data imbalance  network flow  resampling
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号