首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 871 毫秒
1.
离群点检测是数据挖掘领域的重要研究方向之一,其目的是找出数据集中与其他数据对象显著不同的一小部分数据。离群点检测在网络入侵检测、信用卡欺诈检测、医疗诊断等领域有着非常重要的应用。近年来,粗糙集理论被广泛用于离群点检测,然而,经典的粗糙集模型不能有效处理数值型数据。对此,本文利用邻域粗糙集模型来检测离群点,在邻域粗糙集中引入一种新的信息熵模型——邻域粒度熵。基于邻域粒度熵,提出一种新的离群点检测算法OD_NGE。实验结果表明,相对于已有的离群点检测算法,OD_NGE具有更好的离群点检测性能。  相似文献   

2.
讨论了基于无指导离群点检测的网络入侵检测技术及实现框架.技术方法首先在网络数据包上通过改进的随机森林算法建立了网络服务模型,然后通过确定网络服务模型上的离群点实现网络入侵检测.还通过在KDD'99数据集上对所提出的技术实现入侵检测的实验及结果进行了讨论并与其他无指导异常检测方法进行了比较.  相似文献   

3.
信息处理技术用于"非监督"入侵检测的方法可以改进入侵检测效率,在总结前人成果的基础上,给出一种基于信息熵的数据集分割方法、提出基于"组合熵"的聚类方法,定义一种新的距离度量方法--"熵距离"并修改近邻算法得到一种新的检测模型生成方法、基于相对熵和CURE算法设计一种多层的检测模型更新框架,并利用miniNIDS检验测试结果.  相似文献   

4.
基于距离的不确定离群点检测   总被引:4,自引:0,他引:4  
在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术.这项技术在确定性数据中已经得到了深入的研究,但在新兴的不确定数据领域却是一项新的研究课题.在无线传感器网络、数据集成和数据挖掘等技术中使用不确定数据模型更能真实反映现实世界,进一步提高这些技术的实际可行性.针对不确定数据,提出新的离群点定义.提出基于距离的不确定数据离群点检测的高效过滤方法,包括基础过滤方法b-RFA和改进方法o-RFA,最后提出高效概率计算方法DPA.b-RFA方法利用非离群点的过滤性质,减少检测次数.o-RFA方法通过挖掘数据分布信息对b-RFA方法作出改进,进一步提高过滤效率.DPA方法找到概率求解中的递推规律,极大提高了单点检测效率.实验结果显示:提出的方法可以有效地减少候选集,降低搜索空间,改善在不确定数据上的查询性能.  相似文献   

5.
离群点检测是数据挖掘领域的重要研究方向之一,可以从大量数据中发现少量与多数数据有明显区别的数据对象。在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术。为了提高离群点检测准确度,文中在局部离群测度(SLOM)算法的基础上,作了一些改进,提出了一种基于密度的局部离群点检测算法ESLOM。引入信息熵确定数据对象的离群属性,并对对象距离采用加权距离,以提高离群点检测准确度。理论分析和实验表明该算法是可行有效的。  相似文献   

6.
离群检测是数据挖掘领域的一个重要内容,它为分析各种海量、复杂、含有噪声的数据提供了新的方法.对离群簇进行了定义并据此提出一种离群检测方法,该方法增量式地对原始数据集进行聚类,在得到的簇中寻找离群簇.根据提出的簇间差异性度量,新方法可处理混合属性数据集.同时探讨了参数取值.基于人工数据集和真实数据集上的实验表明,新方法检测离群点具有精度高、速度快的优点,适用于大规模数据集.  相似文献   

7.
提高故障诊断能力对于确保水下机器人AUV系统的稳定运行具有重要意义。针对水下机器人推进器系统,提出一种基于离群点检测的AUV故障检测方法。首先,将传感器采集的数据进行灰色预测处理;然后,提出了一种结合K-mean和DBSCAN的改进迭代聚类(Iterative K-mean DBSCAN,IKD)算法进行离群点检测;最后,与K-mean和DBSCAN算法相比,仿真实验结果表明基于灰色预测和KID离群点检测算法的故障检测准确率高,能够有效地实现水下机器人AUV的无监督故障诊断。  相似文献   

8.
在分析了现有的入侵检测方法的基础上,为了降低入侵检测系统的错检率、降低漏检率和提高实时性,提出了一种新的检测方法:基于新的条件熵的入侵检测算法.本算法在考虑信息论有关理论的基础上,利用信息熵的知识对收集到的数据进行离散化.通过分析离散化后的数据,利用新的条件熵的知识约简方法去除冗余属性,生成检测规则,然后用来分析入侵数据.实验结果表明:基于新的条件熵的入侵检测算法与基于BP神经网络和支持向量机的入侵检测算法比较,可以有效地提高入侵检测系统的检测率,降低错检率.该算法的检测率提高7%左右,能为信息系统提供很好的入侵检测服务.  相似文献   

9.
离群点或异常检测是数据挖掘和机器学习等领域的研究热点之一,研究人员已提出了多种离群点检测方法,并将其应用于入侵检测和异常交易检测等问题.但多数离群点检测方法主要针对表数据或时间序列数据等,无法直接应用于离群文档检测.现有基于相近性的离群文档检测方法一般用文档与整个文档集的距离来衡量离群性,无法发现基于局部考量的离群文档,而且采用欧几里德距离可能无法刻画出文档间的语义相近性.基于概率模型的离群文档检测方法过于复杂,并且同样只从全局来定义文档的离群值.针对这些问题,文中提出了一种新的基于相近性的离群文档检测方法.该方法引入最优输运距离,基于利用文档词嵌入向量的语义信息,在文档之间使用最优输运算法以度量距离,并利用LDA主题模型对文本进行层级抽象,通过最优输运算法算出主题之间的距离后,再计算文档距离,文中基于这两种最优运输距离计算文档与它的k近邻文档之间的距离来衡量该文档的离群程度.该方法从局部视角来定义文档的离群性,所采用的文档距离能体现文档之间的语义相近性.在两个开源数据集上进行了较细致的对比实验,实验结果显示,所提方法在多个指标上优于基准离群文档检测方法;还检验了基于k近邻离群文档定义的有效性以及k值的选取对结果的影响.  相似文献   

10.
基于改进单类支持向量机的工业控制网络入侵检测方法   总被引:2,自引:0,他引:2  
针对单类支持向量机(OCSVM)入侵检测方法无法检测内部异常点和离群点导致决策函数偏离训练样本的问题,提出了一种结合具有噪声的密度聚类(DBSCAN)方法和K-means方法的OCSVM异常入侵检测算法。首先通过DBSCAN算法,剔除训练数据中的离群点,消除离群点的影响;然后利用K-means划分数据类簇的方法筛选出内部异常点;最后利用OCSVM算法为每一个类簇建立单分类器用于检测异常数据。工控网络数据集上的实验结果表明,该组合分类器能够利用无异常数据样本检测出工控网络入侵,并且提高了OCSVM方法的检测效果。在气体管道网络数据集入侵检测实验中,所提方法的总体检测率为91.81%;而原始OCSVM算法则为80.77%。  相似文献   

11.
In recent years, much attention has been given to the problem of outlier detection, whose aim is to detect outliers - objects who behave in an unexpected way or have abnormal properties. The identification of outliers is important for many applications such as intrusion detection, credit card fraud, criminal activities in electronic commerce, medical diagnosis and anti-terrorism, etc. In this paper, we propose a hybrid approach to outlier detection, which combines the opinions from boundary-based and distance-based methods for outlier detection ( [Jiang et al., 2005], [Jiang et al., 2009] and [Knorr and Ng, 1998]). We give a novel definition of outliers - BD (boundary and distance)-based outliers, by virtue of the notion of boundary region in rough set theory and the definitions of distance-based outliers. An algorithm to find such outliers is also given. And the effectiveness of our method for outlier detection is demonstrated on two publicly available databases.  相似文献   

12.
粗糙集中的距离度量与离群点检测   总被引:1,自引:0,他引:1  
针对传统的基于距离的离群点检测方法不能有效地处理具有离散型属性数据集的问题,将基于距离的离群点检测方法引入粗糙集理论,利用粗糙集解决离散型属性的处理问题.首先,在粗糙集的框架中提出3种面向离散型属性的距离度量;然后,针对这3种距离度量分别设计出相应的离群点检测算法,用于从包含离散型属性的数据集中检测离群点;最后,通过在2个包含离散型属性的UCI数据集上的实验,验证了这些算法的可行性和有效性.  相似文献   

13.
针对基于距离的离群点检测算法受全局阈值的限制, 只能检测全局离群点, 提出了基于聚类划分的两阶段离群点检测算法挖掘局部离群点。首先基于凝聚层次聚类迭代出K-means所需的k值, 然后再利用K-means的方法将数据集划分成若干个微聚类; 其次为了提高挖掘效率, 提出基于信息熵的聚类过滤机制, 判定微聚类中是否包含离群点; 最后从包含离群点的微聚类中利用基于距离的方法挖掘出相应的局部离群点。实验结果表明, 该算法效率高、检测精度高、时间复杂度低。  相似文献   

14.
基于邻域粗糙集的入侵检测   总被引:3,自引:0,他引:3  
针对入侵检测系统存在的高漏报率和误报率,提出了一种基于邻域粗糙集的入侵检测方法.该方法在粗糙集理论的基础上引入邻域概念,这样便无需对数据进行离散化处理,可以减少信息损失.实验结果表明:该方法可选择出更为重要的属性组合,从而获得较高的检测率和较低的漏报率与误报率.  相似文献   

15.
The study of intrusion detection techniques has been one of the hot spot topics in the field of network security in recent years. For high-dimensional intrusion detection data sets and a single classifier's weak classification ability for data sets with many classes, a novel intrusion detection approach, termed intrusion detection based on multiple rough classifiers integration, is proposed. First, some training data sets are generated from intrusion detection data by random sampling. By combing rough sets and quantum genetic algorithm, a subset of attributes is selected. Then, each simplified data set is trained, which establishes a group of rough classifiers. Finally, the intrusion data classification result is obtained according to the absolute majority voting strategy. The experimental results illustrate the effectiveness of our methods.  相似文献   

16.
异常检测一直是数据挖掘领域的重要工作之一。基于欧式距离的异常检测算法在应用于高维数据时存在检测精度无法保证和运行时间过长的问题。在基于角度方差的异常检测算法基础上提出了一种多层次的高维数据异常检测算法(Hybrid outlier detection algorithm based on angle variance for High-dimensional data, HODA)。算法结合了粗糙集理论,分析属性之间的相互作用以排除影响较小的属性;通过分析各维度上的数据分布,对数据进行网格划分,寻找可能存在异常点的网格;最后对可能存在异常点的网格计算角度方差异常因子,筛选异常数据。实验结果表明,与ABOD, FastVOA和经典LOF算法相比,HODA算法在保证精测精度的前提下,运行时间显著缩短且可扩展性强。  相似文献   

17.
离群数据检测,主要目的是从海量数据中发现异常数据。其有以下两点好处:第一,作为数据预处理工作,减少噪声点对模型的影响;第二,针对特定场景检测出异常,并对异常现象本身进行挖掘,也非常有价值。目前,国内外主流的方法像LOF、KNN、ORCA等,无法兼顾全局离群点、局部离群点和离群簇同时存在的复杂场景的检测。 针对这一情况,提出了一种新的离群数据检测模型。为了能够最大限度对全局、局部离群数据以及离群簇的全面检测,基于iForest、LOF、DBSCAN分别对于全局离群点、局部离群点、离群簇的高度敏感度,选定该三种特定基分类器,并且改变其目标函数,修正框架的错误率计算方式,进行融合,形成了新的离群数据检测模型ILD-BOOST。实验结果表明,该模型充分兼顾了全局和局部离群数据及离群簇的检测,且效果优于目前主流的离群数据检测方法。  相似文献   

18.
一种面向高维混合属性数据的异常挖掘算法   总被引:2,自引:0,他引:2  
李庆华  李新  蒋盛益 《计算机应用》2005,25(6):1353-1356
异常检测是数据挖掘领域研究的最基本的问题之一,它在欺诈甄别、气象预报、客户分类和入侵检测等方面有广泛的应用。针对网络入侵检测的需求提出了一种新的基于混合属性聚类的异常挖掘算法,并且依据异常点(outliers)是数据集中的稀有点这一本质,给出了一种新的数据相似性和异常度的定义。本文所提出算法具有线性时间复杂度,在KDDCUP99和WisconsinPrognosisBreastCancer数据集上的实验表明,算本法在提供了近似线性时间复杂度和很好的可扩展性的同时,能够较好的发现数据集中的异常点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号