首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
基于网格上近似的大规模数据集离群点检测算法GROUT   总被引:4,自引:0,他引:4  
通过对数据集中离群点分布特性的分析,给出离群点的解析定义,并在度量意义下采用数据空间网格化方法实现对密集数据主体的过滤,从而构造了在时间和空间上均具有极高效率的离群点检测算法。  相似文献   

2.
苟杰  马自堂  张喆程 《计算机科学》2016,43(7):251-254, 274
针对现有离群点检测算法在运用于大规模数据集时时间效率较低的问题,提出一种基于K近邻的并行离群点检测算法PODKNN (Parallel Outlier Detection Based on K-nearest Neighborhood)。该算法利用划分策略对数据集进行预处理,在规模较小的子集中寻找K近邻并计算离群度,最后合并结果并遴选出离群点,设计算法过程使其符合MapReduce的编程模型,实现并行化,从而提高了离群点检测算法处理大规模数据的计算效率。实验结果表明,PODKNN具有较高的加速比及较好的扩展性。  相似文献   

3.
空间离群点是指与其邻居具有明显区别的属性值的空间对象。已有的空间离散点检测算法一个主要的缺陷就是这些方法导致一些真正的离群点被忽略而把一些非离群点当成了空间离群点。本文提出了一种迭代算法,该算法通过多次迭代检测离群点,取得较好效果。实验表明该算法具有较好的实用性。  相似文献   

4.
空间离群点是指与其邻居具有明显区别的属性值的空间对象。已有的空间离散点检测算法一个主要的缺陷就是这些方法导致一些真正的离群点被忽略而把一些非离群点当成了空间离群点。提出了一种迭代算法,该算法通过多次迭代检测离群点,取得较好效果。实验表明该算法具有较好的实用性。  相似文献   

5.
针对现有基于距离的离群点检测算法在处理大规模数据时效率低的问题,提出一种基于聚类和索引的分布式离群点检测(DODCI) 算法。首先利用聚类方法将大数据集划分成簇;然后在分布式环境中的各节点处并行创建各个簇的索引;最后使用两个优化策略和两条剪枝规则以循环的方式在各节点处进行离群点检测。在合成数据集和整理后的KDD CUP数据集上的实验结果显示,在数据量较大时该算法比Orca和iDOoR算法快近一个数量级。理论和实验分析表明,该算法可以有效提高大规模数据中离群点的检测效率。  相似文献   

6.
7.
基于密度的局部离群点检测算法   总被引:1,自引:0,他引:1  
基于统计学和基于距离的离群点检测都依赖与给定数据点集的全局分布,然而数据通常并非都是均匀分布的。当分析分布密度相差很大的数据时,基于密度的局部离群点检测方法有着很好的识别局部离群点的能力。但存在时间复杂度较大,文章提出了一种改进的算法,能降低时间复杂度,实现有效的局部离群点的检测。  相似文献   

8.
无线网络动态数据完整性呈非线性分布,数据结构较为复杂,完整性检测效果较差.为此,设计基于离群点检测算法的无线网络动态数据完整性检测方法.设计离群点检测算法动态数据生成层的数据组结构,据此得到机器计量数据学习离群点,根据数据学习离群点位置,计算动态数据完整性检测指标.构建动态数据完整性检测算法,完成无线网络动态数据完整性...  相似文献   

9.
空间离群点的检测算法   总被引:2,自引:0,他引:2  
空间离群点是指与其邻居具有明显区别的属性值的空间对象.已有的空间离散点检测算法一个主要的缺陷就是这些方法导致一些真正的离群点被忽略而把一些非离群点当成了空问离群点.提出了一种迭代算法,该算法通过多次迭代检测离群点,取得较好效果.实验表明该算法具有较好的实用性.  相似文献   

10.
DV-Hop算法在无线传感器网络节点分布不均匀时定位误差较大。针对上述问题,利用离群点检测算法提高计算未知节点坐标的精度。在采用多边测量算法估计未知节点的坐标位置时用离群点检测算法LOF对未知节点的估计坐标进行分析和筛选,最终确定未知节点位置。仿真实验表明,该方法能提高节点的定位精度,减小定位误差。  相似文献   

11.
异常点检测是数据挖掘的一个重要研究方向,基于Cell的异常点检测算法生成的Cell(单元)数与维数成指数增长.当生成的单元数增多及数据量增大时,基于Cell的算法不能有效工作.分析发现这些单元中存在很多无用的空单元.本文采用CD-Tree结构对非空单元进行索引,并采用聚簇技术,将每个单元中的数据点存放在同一个磁盘页链中.实验表明,采用CD-Tree以及聚簇技术设计的异常点检测磁盘算法的效率,以及所能处理的数据集维数较原基于Cell的磁盘算法都有显著的提高.  相似文献   

12.
13.
14.
局部离群点挖掘算法研究   总被引:14,自引:0,他引:14  
离群点可分为全局离群点和局部离群点.在很多情况下,局部离群点的挖掘比全局离群点的挖掘更有意义.现有的基于局部离群度的离群点挖掘算法存在检测精度依赖于用户给定的参数、计算复杂度高等局限.文中提出将对象属性分为固有属性和环境属性,用环境属性确定对象邻域、固有属性计算离群度的方法克服上述局限;并以空间数据为例,将空间属性与非空间属性分开,用空间属性确定空间邻域,用非空间属性计算空间离群度,设计了空间离群点挖掘算法.实验结果表明,所提算法具有对用户依赖性少、检测精度高、可伸缩性强和运算效率高的优点.  相似文献   

15.
基于相似孤立系数的孤立点检测算法   总被引:1,自引:0,他引:1  
基于聚类的孤立点检测算法得到的结果比较粗糙,不够准确。针对该问题,提出一种基于相似孤立系数的孤立点检测算法。定义相似距离以及相似孤立点系数,给出基于相似距离的剪枝策略,根据该策略缩小可疑孤立点候选集,并降低孤立点检测算法的计算复杂度。通过选用公共数据集Iris、Labor和Segment—test进行实验验证,结果表明,该算法在发现孤立点、缩小候选集等方面相比经典孤立点检测算法更有效。  相似文献   

16.
基于R-Tree的高效异常轨迹检测算法   总被引:1,自引:0,他引:1  
提出了异常轨迹检测算法,通过检测轨迹的局部异常程度来判断两条轨迹是否全局匹配,进而检测异常轨迹.算法要点如下:(1) 为了有效地表示轨迹的局部特征,以k个连续轨迹点作为基本比较单元,提出一种计算两个基本比较单元间不匹配程度的距离函数,并在此基础上定义了局部匹配、全局匹配和异常轨迹的概念;(2) 针对异常轨迹检测算法普遍存在计算代价高的不足,提出了一种基于R-Tree的异常轨迹检测算法,其优势在于利用R-Tree和轨迹间的距离特征矩阵找出所有可能匹配的基本比较单元对,然后再通过计算距离确定其是否局部匹配,从而消除大量不必要的距离计算.实验结果表明,该算法不仅具有很好的效率,而且检测出来的异常轨迹也具有实际意义.  相似文献   

17.
为了解决k-means算法的离群点检测容易受到初始聚类中心的影响陷入局部最优的问题,本文提出一种基于改进布谷鸟搜索的k-means算法的离群点检测方法.首先,对原始布谷鸟搜索算法中的发现概率和莱维飞行步长做自适应策略改进并进行实验仿真;其次讨论改进后的布谷鸟搜索算法的收敛性问题;最后将改进后的布谷鸟搜索算法与k-mea...  相似文献   

18.
王飞 《计算机系统应用》2015,24(12):233-238
异常检测是数据挖掘领域研究的基本问题之一,已被广泛应用于气象预报、网络入侵检测、电信和信用卡欺诈侦察等领域.基于密度的异常检测算法LOF具有较好的检测效果和适用性,但其计算量较大,运行效率不够高,且在进行对象之间的距离计算时忽略了不同属性对异常值的不同影响.针对以上不足,本文提出了一种高效的LOF改进算法iLOF*.该算法利用网格进行数据约简,从而提高了算法的运行效率;同时,在进行对象之间的距离计算时,引入信息熵,给不同属性赋予不同的权值,从而提高了算法的准确率.另外,用MapReduce计算框架将iLOF*算法并行化,进一步提高了算法在大规模数据集上的运行效率.最后的实验结果验证了iLOF*算法的有效性和高效性.  相似文献   

19.
基于密度的局部异常检测算法(LOF算法)的时间复杂度较高,限制了其在高维数据集以及大规模数据集中的使用。该文通过分析LOF算法,引入记忆效应概念,提出具有记忆效应的局部异常检测算法——MELOF算法。实验测试表明,该算法的计算结果与LOF算法完全相同,而且能够大大缩短运行时间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号