共查询到18条相似文献,搜索用时 593 毫秒
1.
2.
3.
为解决现有高维海量数据离群点挖掘在时间与空间效率上的不足,提出了一种基于粗约简和网格的离群点检测算法RRGOD。算法在基于密度的离群点检测算法LOF的基础上,结合粗糙集理论特点,引入属性权值概念,淘汰属性权值低于重要度阈值的属性降低维度,从而减少了进行聚类的计算量。在网格聚类阶段,对传统的网格划分方法进行改进,引入属性维半径向量概念,提出了一种可变网格划分方法,根据数据集特点自适应地划分网格空间。在真实数据集和仿真数据集上进行了实验。结果表明,该算法在进行离群点检测时能在保持足够精确度的同时,检测效率有显著的改善。 相似文献
4.
董飞 《计算机光盘软件与应用》2013,(4)
对高维数据离群点降维方法进行研究,从而提高挖掘算法的准确度以及挖掘的速度。针对传统的离群点挖掘算法对于高维数据的不适用性,提出了基于属性的局部离群点挖掘算法,该算法以局部线性嵌入降维算法为基础,利用研究对象的特征属性和环境属性来实现降维的目的。实验证明,该方法可以通过约简对象属性的方式达到降维的目的,相比于传统算法更为有效。 相似文献
5.
该文提出在高维空间下离群点发现技术的新方法,即利用粗糙集的属性约简技术减少高维空间的维数,并在各个关联规则子空间下对数据集进行基于密度的离群点挖掘,使高维空间下的离群点挖掘更具有实用性。数据分析表明,该算法能有效地发现高维空间数据集中的离群点。 相似文献
6.
一种基于关键域子空间的离群数据聚类算法 总被引:4,自引:0,他引:4
离群数据发现与分析是数据挖掘的重要组成部分,现有离群数据挖掘算法主要针对如何检测离群对象,缺乏对挖掘出的离群数据集进行解释与分析的有效方法.通过对离群数据来源及特性进行分析并结合粗糙集理论,定义了离群划分相似度的概念,提出了一种基于关键属性域子空间的离群数据聚类算法COKAS,该算法不仅揭示了离群数据子空间特性,进一步获取了扩展知识,而且有助于对整体数据集的理解.对两个多维数据集的实验结果表明,该算法具有良好的适应性及有效性. 相似文献
7.
8.
9.
NLOF:一种新的基于密度的局部离群点检测算法 总被引:1,自引:0,他引:1
基于密度的局部离群点检测算法(LOF)的时间复杂度较高且不适用于大规模数据集和高维数据集的离群点检测。通过对LOF算法的分析,提出了一种新的局部离群点检测算法NLOF,该算法的主要思想如下:在数据对象邻域查询过程中,尽可能地利用已知信息优化邻近对象的邻域查询操作,有关邻域的计算查找都采用这种思想。首先通过聚类算法DBSCAN对数据集进行预处理,得到初步的异常数据集。然后利用LOF算法中计算局部异常因子的方法计算初步异常数据集中对象的局部异常程度。在计算数据对象的局部异常因子的过程中,引入去一划分信息熵增量,用去一划分信息熵差确定属性的权重,対属性的权值做具体的量化,在计算各对象之间的距离时采用加权距离。 在真实数据集上 对NLOF算法进行了充分的验证。结果显示,该算法能够提高离群点检测的精度,降低时间复杂度,实现有效的局部离群点的检测。 相似文献
10.
对于离群点的形成,不同的属性起着不同的作用,离群点在不同的属性域中,会表现出不同的离群特性,在大多数情况下,高维数据空间中的对象是否离群往往取决于这些对象在低维空间中的投影。针对如何将离群点按照形成原因分类的问题,引入离群属性和离群簇等概念,以现有离群挖掘技术为基础,提出了基于离群分类来进行离群点分析的方法,实现了基于聚类的离群点分类算法CBOC(cluster-based outlier classification),以揭示离群点的内涵知识。实验表明了该方法在实际应用中的有效性。 相似文献
11.
12.
Detection of outlier from high dimensional dataset have found important applications in many fields, yet the unexpected time consumption is likely to hinder its practical use. Thus, it makes sense to build an efficient method for finding meaningful outliers and analyzing their intentional knowledge. In this paper, we utilize the concept of rough set to construct a method for outlying reduction, based on an outlier detection and analysis system. By defining outlying partition similarity, we can mine outliers on the key attribute subset rather than on the full dimensional attribute set of dataset, as long as the similarity between outlying partitions produced on them is large enough. For this purpose, we propose a novel method for finding the key attribute subset in dataset, which starts by seeking all outliers on the full attribute set, and then searches through all outlying attribute subsets for these points. After that, it turns out to be able to determine the key attribute subset in accordance with the similarity between outlying partitions. By experiments, we show that our method allows more efficient seeking of key attribute subset than the previous methods, thereby improving the feasibility of outlier detection. 相似文献
13.
离群数据挖掘与分析在通信欺诈检测、疾病诊断和网络入侵检测等多个领域具有十分重要的意义。离群数据关键域子空间可以获得数据离群起源与特征等相应的延伸知识。通过对离群数据对象与其属性值的关系讨论并基于探索性数据分析方法,提出了一种离群数据关键域子空间实时快速搜索算法。实验结果表明提出的算法是有效的,可以满足大多数实时性检测与分析要求。 相似文献
14.
基于距离的孤立点检测研究 总被引:15,自引:0,他引:15
孤立点检测是一个重要的知识发现任务,在分析基于距离的孤立点及其检测算法的基础上,文章提出了一个判定孤立点的新定义,并设计了基于抽样的近似检测算法,用实际数据进行了实验。实验结果表明,新的定义不仅与DB(p,d)孤立点定义有着相同的结果,而且简化了孤立点检测对用户的要求,同时给出了数据对象在数据集中的孤立程度。 相似文献
15.
不完全决策表的一种信息熵属性约简算法 总被引:1,自引:0,他引:1
属性约简是粗糙集理论的核心问题之一,也是粗糙集有效算法研究的焦点。为获得最简明的规则集,通常希望能找出最小的属性约简集,但得到最优解NP-hard的问题,通常采取启发式的算法得到近似最优解。文中研究了不完全决策表的属性约简,提出了对不完全决策表的一种基于信息熵的属性约简算法,并通过例子说明算法的具体过程和验证了算法的可行性。对寻找对象的相似类的步骤则在排序和二分查找的基础上提出了一种高效的算法,这样就相应地提高了属性约简算法的效率。 相似文献
16.
粗糙集理论研究的核心内容之一是属性重要性的度量和属性约简。经典的粗糙集模型基于等价关系,适合于处理离散属性值。模糊粗糙集理论将模糊集和粗糙集理论结合起来,将等价关系扩展为模糊关系,可处理模糊属性值。分析了已有广泛运用的模糊决策表的属性约简算法FRAR存在的三个问题,提出了一种新的约简算法,较好地克服了原算法的问题,能处理规模较大的模糊决策表。 相似文献
17.
一种新的完全决策表属性约简的高效算法 总被引:2,自引:2,他引:2
属性约简是粗糙集理论的核心问题之一,也是粗糙集有效算法研究的焦点。为获得最简明的规则集,通常希望能找出最小的属性约简集,但得到最优解是NP-hard的问题,通常采取启发式的算法得到近似最优解。文中研究了不完全决策表的属性约简,提出一种衡量不完全决策表属性重要性的标准,依此给出了一种新的进行属性约简启发式算法。对寻找对象的相似类的步骤则在排序和二分查找的基础上提出了一种新的高效的算法,这样就相应地使得属性约简的效率得到提高。此算法较好地解决了不完全决策表的属性约简问题。 相似文献
18.
为了在动态变化的决策表中,快速方便地获得新的属性约简,利用数组元素对差别矩阵中的属性组合进行计数,提出一种基于数组的增量式属性约简更新算法。当决策表动态变化时,根据数组元素的取值变化,获得差别矩阵中增加和减少的元素,依据这些元素更新原属性约简,快速得到新的最小属性约简。理论分析及实例验证了提出的算法是有效的。 相似文献