首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 72 毫秒
1.
针对目前大部分离群点检测算法未考虑数据的局部信息, 导致离群点检测的准确率低问题, 提出一种新的基于聚类和局部信息的两阶段离群点检测算法. 通过定义新的局部离群因子作为判断数据对象是否为离群点的衡量标准, 改进了传统离群点检测算法的过程. 实验结果表明, 该算法在保持线性复杂度的同时, 能更准确、 有效地挖掘出数据集中的离群点.  相似文献   

2.
基于加权距离的局部离群点检测算法   总被引:1,自引:1,他引:0  
针对不同属性对数据点之间距离贡献的不同,提出了一种用于距离度量的属性加权策略。标称属性通过属性取值的信息熵进行加权,数值属性通过属性取值的标准差进行加权,混合属性根据标称属性和数值属性综合加权,加权策略可以放大离群点与正常数据之间的差别。仿真实验区分不同的属性类型对所提加权策略进行了验证,实验结果证明了策略的有效性。  相似文献   

3.
针对基于栈式自编码器的离群点(SAE)检测算法和基于密度的离群点(LOF)检测算法检测精度不高的问题,提出了将SAE算法和LOF算法相结合的SAE-LOF算法.该算法的核心是对单独的SAE算法和LOF算法加入"投票"思想,通过神经网络训练权重,计算SAE算法和LOF算法加权投票结果,进而检测离群点.首先,训练并测试SA...  相似文献   

4.
张哲 《科技咨询导报》2010,(6):216-216,218
对两种常用的空间离群点检测算法进行简单的介绍,并通过实验对算法进行比较,分析了这两种空间离群点检测算法的优缺点,以及导致它们差异的具体原因。这对寻找更好的空间离群点检测算法具有实用意义。  相似文献   

5.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用.然而传统Kmeans算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高.针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子.然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中.算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率.实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性.  相似文献   

6.
随着信息技术的快速发展,数据资源的结构越来越复杂,离群点挖掘受到越来越多人关注.基于高斯核函数,考虑数据对象的k个最近邻居,反向k近邻居和共享最近邻居三种邻居关系,估计数据对象的密度,提出了一种基于高斯核函数的局部离群点检测算法.该算法通过KNN图存储每个数据对象的最近邻,包括k最近邻,反向k近邻和共享最近邻,构成数据对象的邻居集合S;通过核密度估计KDE方法估计数据对象的密度;通过相对密度离群因子RDOF来估计数据对象偏离邻域的程度,进而判定数据对象是否为离群点,并在真实和合成的数据集上证明了该算法的有效性.  相似文献   

7.
基于离群点检测的K-means算法   总被引:1,自引:0,他引:1  
K-means算法以其简单、快速的特点在现实生活中得到广泛应用。然而传统K-means算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高。针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子。然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中。算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率。实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性。  相似文献   

8.
针对k-means算法必须事先指定初始聚类数k,并且对初始聚类中心点比较敏感,聚类准则函数对求解的最优聚类数评价不理想,提出一种基于局部密度的启发式生成初始聚类中心方法,在此基础上设计一种准则函数自动生成聚类数目,改进了传统k-means算法.实验表明改进的算法比传统k-means算法提高了聚类效率.  相似文献   

9.
针对传统的基于密度的局部离群点检测算法对原始数据集没有进行预处理导致该算法在面对未知数据集时检测效果不理想,又由于其需要计算每一个数据点的离群因子,在数据量过多时,计算量大大增加的问题,通过对局部离群点检测算法的分析,提出了一种基于目标函数的局部离群点检测方法FOLOF(FCM objective function-based LOF).首先,使用肘部法则确定数据集的最佳聚类个数;然后,通过FCM的目标函数对数据集进行剪枝,得到离群点候选集;最后,利用加权局部离群因子检测算法计算候选集中每个点的离群程度.利用该方法在人工数据集和UCI数据集上进行了相关实验,并与其他相关方法进行了对比,结果显示,该算法能够提高离群点检测精度,减少计算量,有效提高离群点检测性能.  相似文献   

10.
基于数据模式聚类算法的离群点检测   总被引:1,自引:0,他引:1  
针对传统模式挖掘算法在事务包含模式定义上未考虑模式间的包含关系而使聚类结果不够优良的问题, 提出一种新的基于模式聚类的离群点检测算法PCOT, 该算法适合于高维数据空间, 采用一种新的事务包含模式, 通过将模式表示成超图, 用超图分割方法对模式进行聚类. 实验与分析结果表明, 该算法能有效地在高维稀疏空间中发现离群点.  相似文献   

11.
针对学生评教数据中的离群点问题,根据消极评教数据产生的方式及特点,提出了一种基于几何特征的学生评教数据离群点检测算法.该算法通过分析样本的几何特征,计算样本的离群程度,完成离群点检测,共分为3步进行:(i)依据教学质量评价数据,在几何特征空间中建立样本的点映射;(ii)从形状相似度、距离相似度2个方面构建判别空间,对几...  相似文献   

12.
为了减少基于密度的异常点检测算法邻域查询操作的次数,同时避免ODBSN(Outlier Detection Based onSquare Neighborhood)中有意义异常点的丢失和稀疏聚类中的对象靠近稠密聚类时导致错误的异常点判断,提出了一种基于邻域和密度的异常点检测算法NDOD(Neighborhood and Density based Outlier Detection)。NDOD吸收基于网格方法的思想,以广度优先扩张方形邻域,成倍地减少了邻域查询的次数,从而快速排除聚类点并克服基于网格方法中的"维灾"。新引入的基于邻域的局部异常因子代表候选异常点的异常程度,用于对候选异常点的精选,可避免ODBSN的缺陷,发现更多有意义的异常点。大规模和任意形状的二维空间数据的测试结果表明,该算法是可行有效的。  相似文献   

13.
为提高列车车轮踏面检测效率,设计了一套基于机器视觉的车轮踏面动态检测系统,分析了k-means聚类算法,通过加权欧式距离对该算法进行改进,利用聚类法具有保持最大相似性的特性,将基于加权欧式距离的k-means聚类算法用于机器视觉的图像处理。先对原始图像作图像增强、图像灰度化等预处理,再以特征聚类思想对图像作阈值分割,使图像中的各部分特征更加突出。图像处理结果显示,基于加权欧式距离k-means聚类算法的车轮踏面损伤视觉检测系统可以有效地检测出踏面损伤。  相似文献   

14.
物联网的快速发展产生了海量的高维时序数据,然而时间序列易受到外界变化的环境因素影响而产生离群点。针对现有的离群点挖掘算法不能兼顾时序数据的趋势性、季节性、循环性、不规则性的特点,从而导致检测效果不理想的问题,提出一种基于残差融合的时序数据离群挖掘(residual integration outlier,RIO)算法。首先利用线性自回归移动平均模型(autoregressive integrated moving average model,ARIMA)拟合数据,得到在相同时间粒度下的残差序列,并将该序列作为非线性模型长短期记忆网络(long short-term memory,LSTM)模型的输入,输出残差序列预测值,而后将经由ARIMA模型与LSTM模型处理的序列在相同时间粒度下融合,得到一条经由混合模型两次处理的残差序列。最后,利用基于直方图的离群点模型(histogram-based outlier score,HBOS)检测出该二次残差序列的离群点。实验表明,RIO算法的准确度得到了较为明显的提高,具备良好的实用价值。  相似文献   

15.
提出了一种基于距离和密度的聚类和孤立点检测算法.该算法根据距离和密度阈值对数据进行聚类,同时发现数据中的孤立点.实验结果表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

16.
介绍了 k -means 和 DBSCAN 聚类算法的基本原理和优缺点,针对传统聚类算法无法有效处理高维混合属性数据集的问题,对原有的数据归一化方法进行改进,在 k -means 和 DBSCAN 聚类算法的基础之上,结合增量聚类的思想和数据之间相异度的计算方法,提出了基于密度的增量 k -means 聚类算法,有效处理具有高维混合属性的数据集,改进了数据相异度的计算方法。  相似文献   

17.
基于k-means算法的k值优化的研究与应用   总被引:2,自引:0,他引:2  
k-means算法是经常使用的一种聚类算法,但是易受聚类个数k的影响,其性能主要取决于k值优化,因此对近年来k-means算法的研究现状与进展进行总结。对较有代表性的k值优化的k-means算法,从思想、关键技术等方面进行分析概括,并选用著名数据集对一些典型算法进行了测试,主要从同一个数据集、不同的k值优化情况进行对比分析.上述工作将为聚类分析和数据挖掘的研究提供有益的参考.  相似文献   

18.
A novel approach for outlier detection with iterative clustering( ICOD) in diverse subspaces is proposed. The proposed methodology comprises two phases,iterative clustering and outlier factor computation. During the clustering phase, multiple clusterings are detected alternatively based on an optimization procedure that incorporates terms for cluster quality and novelty relative to existing solution. Once new clusters are detected,outlier factors can be estimated from a new definition for outliers( cluster based outlier), which provides importance to the local data behavior. Experiment shows that the proposed algorithm can detect outliers which exist in different clusterings effectively even in high dimensional data sets.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号