首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 859 毫秒
1.
针对C4.5决策树算法在处理多维数据分类时,没有考虑各属性对分类结果的影响,导致分类准确率低的问题,提出一种基于距离权值的C4.5组合决策树算法。根据标准欧式距离定义数据属性的距离权值,更新C4.5决策树算法的信息增益率,得到基于距离权值的C4.5算法。利用改进后的C4.5决策树分类算法训练多个基分类器,基分类器通过Bagging集成方法构建组合决策树。实验结果表明,该算法在处理多维数据时有较高的准确性和稳定性。  相似文献   

2.
基于C4.5决策树的流量分类方法   总被引:18,自引:1,他引:17  
徐鹏  林森 《软件学报》2009,20(10):2692-2704
近年来,利用机器学习方法处理流量分类问题成为网络测量领域一个新兴的研究方向.在现有研究中,朴素贝叶斯方法及其改进算法以其实现简单、分类高效的特点而被广泛应用.但此类方法过分依赖于样本在样本空间的分布,具有潜在的不稳定性.为此,引入C4.5决策树方法来处理流量分类问题.该方法利用训练数据集中的信息熵来构建分类模型,并通过对分类模型的简单查找来完成未知网络流样本的分类.理论分析和实验结果都表明,利用C4.5决策树来处理流量分类问题在分类稳定性上均具有明显的优势.  相似文献   

3.
基于决策树的流量分类方法*   总被引:4,自引:1,他引:3  
徐鹏  林森  刘琼 《计算机应用研究》2008,25(8):2484-2487
近年来,利用机器学习方法处理流量分类问题已成为网络测量领域一个新兴的研究方向。在目前研究中应用较多的是朴素贝叶斯方法及其改进算法,但这些基于贝叶斯定理的分类方法过于依赖样本空间的分布,具有潜在的不稳定性。为此,引入C4.5决策树方法来处理流量分类问题。C4.5决策树方法利用信息熵来构建分类模型,无须假设先验概率的稳定。实验结果表明C4.5决策树方法可以有效避免网络流分布变化所带来的影响。  相似文献   

4.
P2P流量逐渐成为互联网流量的重要组成部分,精确分类P2P流量对于有效管理网络和合理利用网络资源都具有重要意义。近年来,利用机器学习方法处理P2P流量分类问题已成为流量识别领域的一个新兴研究方向。利用决策树中的C4.5算法和P2P流量的特征属性来构建决策树模型,进而完成P2P流量分类问题。实验结果表明,基于决策树模型的方法能有效避免P2P网络流分布变化所带来的不稳定性;与SVM(support vector machine,支持向量机)、NBK(nave Bayes using kernel densi  相似文献   

5.
丁要军 《计算机应用》2015,35(12):3348-3351
针对不平衡网络流量分类精度不高的问题,在旋转森林算法的基础上结合Bagging算法的Bootstrap抽样和基于分类精度排序的基分类器选择算法,提出一种改进的旋转森林算法。首先,对原始训练集按特征进行子集划分并分别使用Bagging进行样本抽样,通过主成分分析(PCA)生成主成分系数矩阵;然后,在原始训练集和主成分系数矩阵的基础上进行特征转换,生成新的训练子集,再次使用Bagging对子集进行抽样,提升训练集的差异性,并使用训练子集训练C4.5基分类器;最后,使用测试集评价基分类器,依据总体分类精度进行排序筛选,保留分类精度较高的分类器并生成一致分类结果。在不平衡网络流量数据集上进行测试实验,依据准确率和召回率两个标准对C4.5、Bagging、旋转森林和改进的旋转森林四种算法评价,依据模型训练时间和测试时间评价四种算法的时间效率。实验结果表明改进的旋转森林算法对万维网(WWW)协议、Mail协议、Attack协议、对等网(P2P)协议的分类准确度达到99.5%以上,召回率也高于旋转森林、Bagging、C4.5三种算法,可用于网络入侵取证、维护网络安全、提升网络服务质量。  相似文献   

6.
天地一体化智能网络规模大,环境复杂,网络中流量业务类型繁多且流量具有突发性.本文结合Spark大数据分布式平台,根据流量的特点设计了SFFS-FCBF-C4.5(简称SFC)决策树分类模型,实现了大规模网络下流量的实时分类,以保障网络中资源的合理分配和利用.SFC算法是在C4.5决策树算法的基础上结合了改进后的快速相关滤波算法(Fast Correlation-Based Filter Solution, FCBF)和连续型属性值离散化算法,可以在有效去除冗余特征和降低模型复杂度的同时,提高模型分类的速度和准确率.仿真结果表明,SFC决策树分类模型相比传统的流量分类模型具有较好的稳定性和较高的准确率,可以很好的适应复杂多变的网络环境.同时,Spark大数据分布式平台的应用大幅度提高了大规模网络下流量分类的速度,能够对海量流量进行实时分类.  相似文献   

7.
随着互联网应用的广泛使用,网络应用已经呈现出很多类别,尤其是P2P应用流量的暴增。传统的流量分类和应用识别方法已经达不到稳定可观的应用识别率。为了提高P2P应用流量分类准确率和稳定性,科学管理规划网络,提出WMFA(滑动窗口多流关联)分类算法,使用P2P应用流量统计特征,通过降低流统计特征维数,以及减少计算每个流中包的数量,利用C4.5决策树算法对P2P主流应用进行一次分类,采用WMFA算法进行误识别流的挖掘,再进行多流关联进行二次识别,从而提高P2P应用流量分类准确率。实验表明,在降低流特征维数以及减少每个流数据包的前提下,面向国内主流P2P应用WMFA算法对P2P应用在线识别的分类正确率达到96%以上,在准确率上比现有方法平均提高3%。  相似文献   

8.
针对网络恶意软件威胁日益严重等问题,研究了恶意软件常采用的通信方式——隧道技术,并提出了一种基于C4.5的HTTP隧道检测算法.该算法采用决策支持树算法C4.5提取网络流特征字段,根据特征字段生成训练数据建立HTTP隧道分类的决策树检测模型,采用该分类模型检测HTTP隧道流,为检测恶意软件提供依据.实验结果表明,与同类算法相比,该算法不依赖样本空间的分布,能准确地检测HTTP隧道流,具有良好的有效性和稳定性.  相似文献   

9.
胡小生  张润晶  钟勇 《计算机科学》2013,40(11):271-275
类别不平衡数据分类是机器学习和数据挖掘研究的热点问题。传统分类算法有很大的偏向性,少数类分类效果不够理想。提出一种两层聚类的类别不平衡数据级联挖掘算法。算法首先进行基于聚类的欠采样,在多数类样本上进行聚类,之后提取聚类质心,获得与少数类样本数目相一致的聚类质心,再与所有少数类样例一起组成新的平衡训练集,为了避免少数类样本数量过少而使训练集过小导致分类精度下降的问题,使用SMOTE过采样结合聚类欠采样;然后在平衡的训练集上使用K均值聚类与C4.5决策树算法相级联的分类方法,通过K均值聚类将训练样例划分为K个簇,在每个聚类簇内使用C4.5算法构建决策树,通过K个聚簇上的决策树来改进优化分类决策边界。实验结果表明,该算法具有处理类别不平衡数据分类问题的优势。  相似文献   

10.
流量分类和识别是网络流量监测活动的重要组成部分。本文指出了传统流量分类方法的不足,分析了基于机器学习的流量分类和应用识别过程,并将决策树分类算法应用到流量分类中。实验结果表明,在保证较高准确率的同时,基于决策树算法的流量分类和识别应用还具有建模速度快,适合于在线流量分类的特点。  相似文献   

11.
基于支持向量机集成的故障诊断   总被引:3,自引:2,他引:3  
为提高故障诊断的准确性,提出了一种基于遗传算法的支持向量机集成学习方法,定义了相应的遗传操作算子,并探讨了集成下的分类器的构造策略。对汽轮机转子不平衡故障诊断的仿真实验结果表明,集成学习方法的性能通常优于单个支持向量机,而所提方法性能则优于Bagging与Boosting等传统集成学习方法,获得的集成所包括的分类器数目更少,而且结合多种分类器构造策略可提高分类器的多样性。该方法能容易地推广到神经网络、决策树等其他学习算法。  相似文献   

12.
类别不平衡问题广泛存在于现实生活中,多数传统分类器假定类分布平衡或误分类代价相等,因此类别不平衡数据严重影响了传统分类器的分类性能。针对不平衡数据集的分类问题,提出了一种处理不平衡数据的概率阈值Bagging分类方法-PT Bagging。将阈值移动技术与Bagging集成算法结合起来,在训练阶段使用原始分布的训练集进行训练,在预测阶段引入决策阈值移动方法,利用校准的后验概率估计得到对不平衡数据分类的最大化性能测量。实验结果表明,PT Bagging算法具有更好的处理不平衡数据的分类优势。  相似文献   

13.
针对传统基于机器学习的流量分类方法中数据不均衡影响分类效果的问题,提出了一种基于重采样的梯度增强树算法。该算法利用流量数据的统计特征,通过回溯搜索策略优化特征集合并设计适用于流量分类的树结构参数,构造最优模型;利用结合重采样的LightGBM算法修正数据不平衡性并进行分类测试。经实验验证,该算法提高了不平衡数据的分类效果,并且具有性能稳定、快速的优点。  相似文献   

14.
为了减少分布式拒绝服务攻击(DDoS),将蚂蚱优化算法(GOA)与机器学习算法结合使用,通过创建入侵检测系统(IDS)来满足监控环境的要求,并能够区分正常和攻击流量.所设计的基于GOA的IDS技术(GOIDS)能够从原始IDS数据集中选择最相关的特征来帮助区分典型的低速DDoS攻击,然后将选择的特征传递给支持向量机(SVM)、决策树(DT)、朴素贝叶斯(NB)和多层感知器(MLP)等分类器来识别攻击类型.利用KDD Cup 99和CIC-IDS 2017公开数据集作为实验数据,仿真结果表明,基于决策树的GOIDS具有较高的检测率和较低的假阳性率.  相似文献   

15.
本文介绍了一种可用于交通标志识别的新方法--支持向量机(SVM)算法,并将SVM算法与BP算法在交通标志的粗、细分类中的识别效果进行了对比分析。用中国的116个和日本的23个交通标志标准图分别训练基于SVM算法和基于BP算法的智能分类器,并用中国标志的噪声图、扭曲图和531个日本交通标志实景图作为测试集。在粗分类中,虽然BP算法 法的识别率也能达到90%以上,但SVM算法的识别率几乎可达100%,二者差距明显。在细分类中,SVM算法的识别效果与BP算法相比具有更加明显的优势。实验研究结果表明,SVM算法可以以接近最优的方式解决模式分类问题,同时具有更好的泛化能力,在交通标志识别领域具有良好的研究价值和应用前景。  相似文献   

16.
针对经典C4.5决策树算法存在过度拟合和伸缩性差的问题,提出了一种基于Bagging的决策树改进算法,并基于MapReduce模型对改进算法进行了并行化。首先,基于Bagging技术对C4.5算法进行了改进,通过有放回采样得到多个与初始训练集大小相等的新训练集,并在每个训练集上进行训练,得到多个分类器,再根据多数投票规则集成训练结果得到最终的分类器;然后,基于MapReduce模型对改进算法进行了并行化,能够并行化处理训练集、并行选择最佳分割属性和最佳分割点,以及并行生成子节点,实现了基于MapReduce Job工作流的并行决策树改进算法,提高了对大数据集的分析能力。实验结果表明,并行Bagging决策树改进算法具有较高的准确度与敏感度,以及较好的伸缩性和加速比。  相似文献   

17.
针对网络中存在的对等网络(P2P)流量泛滥导致的流量失衡问题,提出将非平衡数据分类思想应用于流量识别过程。通过引入合成少数类过采样技术(SMOTE)算法并进行改进,提出了均值SMOTE (M-SMOTE)算法,实现对流量数据的平衡化处理。在此基础上分别采用3种机器学习分类器:随机森林(RF)、支持向量机(SVM)、反向传播神经网络(BPNN)对处理后各类流量进行识别。理论分析与仿真结果表明,在不影响P2P流量识别准确率的前提下,与非平衡状态相比,引入SMOTE算法将非P2P流量的识别准确率平均提高了16.5个百分点,将网络流量的整体识别率提高了9.5个百分点;与SMOTE算法相比,M-SMOTE算法将非P2P流量的识别准确率与网络流量的整体识别率分别进一步提高了3.2个百分点和2.6个百分点。实验结果表明,非平衡数据分类思想可有效解决P2P流量过多导致的非P2P流量识别率低的问题,同时所提M-SMOTE算法具有更高的识别准确度。  相似文献   

18.
The objective of this paper is to construct a lightweight Intrusion Detection System (IDS) aimed at detecting anomalies in networks. The crucial part of building lightweight IDS depends on preprocessing of network data, identifying important features and in the design of efficient learning algorithm that classify normal and anomalous patterns. Therefore in this work, the design of IDS is investigated from these three perspectives. The goals of this paper are (i) removing redundant instances that causes the learning algorithm to be unbiased (ii) identifying suitable subset of features by employing a wrapper based feature selection algorithm (iii) realizing proposed IDS with neurotree to achieve better detection accuracy. The lightweight IDS has been developed by using a wrapper based feature selection algorithm that maximizes the specificity and sensitivity of the IDS as well as by employing a neural ensemble decision tree iterative procedure to evolve optimal features. An extensive experimental evaluation of the proposed approach with a family of six decision tree classifiers namely Decision Stump, C4.5, Naive Baye’s Tree, Random Forest, Random Tree and Representative Tree model to perform the detection of anomalous network pattern has been introduced.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号