首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 194 毫秒
1.
属性约简是机器学习等领域中常用的数据预处理方法。在基于粗糙集理论的属性约简算法中,大多是根据单一的方法来度量属性重要度。为了从多角度对属性达到更为优越的评估效果,首先在已有的模糊邻域粗糙集模型中定义属性依赖度度量,然后根据粒计算理论中知识粒度的概念,在模糊邻域粗糙集模型下提出了模糊邻域粒度度量。由于属性依赖度和知识粒度代表了不同视角的属性评估方法,因此将这两种方法结合起来用于信息系统的属性重要度评估,最后给出一种启发式属性约简算法。实验结果表明,所提出的算法具有较好的属性约简性能。  相似文献   

2.
姚晟  徐风  吴照玉  陈菊  汪杰  王维 《控制与决策》2019,34(2):353-361
属性约简是粗糙集理论一项重要的应用,目前已广泛运用于机器学习和数据挖掘等领域,邻域粗糙集是粗糙集理论中处理连续型数据的一种重要方法.针对目前邻域粗糙集模型中属性约简存在的缺陷,构造一种基于邻域粗糙集的邻域粗糙熵模型,并基于此给出邻域粗糙联合熵、邻域粗糙条件熵和邻域粗糙互信息熵等概念.邻域粗糙互信息熵是评估属性集相关性的一种重要的方法,具有非单调性变化的特性,对此,提出一种基于邻域粗糙互信息熵的非单调性属性约简算法.实验分析表明,所提出算法不仅比目前已有的单调性属性约简算法具有更优越的属性约简结果,而且具有更高的约简效率.  相似文献   

3.
邻域多粒度粗糙集模型是粗糙集理论的重要研究分支。然而在大数据环境下,数据时刻处于动态更新之中,针对数值型信息系统对象动态变化的情形,本文提出一种邻域多粒度粗糙集模型的增量式更新算法。文中首先利用矩阵的方法表示了邻域多粒度粗糙集中邻域类与目标近似集之间的两种近似关系,分别称之为子集近似关系矩阵和交集近似关系矩阵,并通过这两种近似关系矩阵重构了邻域多粒度粗糙集模型;然后针对数值型信息系统对象增加和对象减少的情形,研究了这两种近似关系矩阵随对象变化时的增量式更新,理论分析证明了这种更新方法的高效性;最后基于近似关系矩阵的增量式更新设计出了邻域多粒度粗糙集模型的增量式更新算法。实验结果验证了所提出增量式算法的有效性和优越性。  相似文献   

4.
离群点的查找算法主要有两类:第一类是面向统计数据,把各种数据都看成是多维空间,没有区分空间维与非空间维,这类算法可能产生错误的判断或找到的是无意义的离群点;第二类算法面向空间数据,区分空间维与非空间维,但该类算法查找效率太低或不能查找邻域离群点。引入熵权的概念,提出了一种新的基于熵权的空间邻域离群点度量算法。算法面向空间数据,区分空间维与非空间维,利用空间索引划分空间邻域,用非空间属性计算空间偏离因子,由此度量空间邻域的离群点。理论分析表明,该算法是合理的。实验结果表明,算法具有对用户依赖性小、检测精度和计算效率高的优点。  相似文献   

5.
袁钟  冯山 《计算机应用》2018,38(7):1905-1909
针对离群点检测中传统距离法不能有效处理符号型属性和经典粗糙集方法不能有效处理数值型属性的问题,利用邻域粗糙集的粒化特征提出了改进的邻域值差异度量(NVDM)方法进行离群点检测。首先,将属性取值归一化并以混合欧氏重叠度量(HEOM)和具有自适应特征的邻域半径构建邻域信息系统(NIS);其次,以NVDM构造对象的邻域离群因子(NOF);最后,设计并实现了基于邻域值差异度量的离群点检测(NVDMOD)算法,该算法在计算单属性邻域覆盖(SANC)的方式上充分利用有序二分和近邻搜索思想改进了传统的无序逐一计算模式。在UCI标准数据集上与现有离群点检测算法——邻域离群点检测(NED)算法、基于距离的离群点检测(DIS)算法和K最近邻(KNN)算法进行了实验对比、分析。实验结果表明,NVDMOD算法具有更好的适应性和有效性,为混合型属性数据集的离群点检测提供了一条更有效的新途径。  相似文献   

6.
多粒度决策理论粗糙集是多粒度视角下三支决策中一种重要的模型。在数值型不完备数据下建立邻域容差关系;在其基础上提出乐观和悲观的邻域多粒度决策理论粗糙集模型。为了弥补这两种模型的局限,提出平均邻域多粒度决策理论粗糙集模型,并分析相关性质以及相互关系。同时为了使所提出的邻域多粒度决策理论粗糙集适用于不完备数据环境,运用区间值的形式表示代价函数,并通过选取不同参数的方式提出一种可变三支决策。实例分析表明,该模型与方法具有一定的合理性与灵活性。  相似文献   

7.
目前,邻域多粒度粗糙集模型广泛采用的距离函数闵可夫斯基距离存在着一定的局限性,通过引入兰氏距离作为距离函数,重构了邻域半径的选取方法,基于此提出一种改进的邻域多粒度粗糙集模型,并证明了相关的性质。采用UCI标准库数据集进行实验分析,对比两种模型的实验结果,验证了改进邻域多粒度粗糙集模型在近似逼近方面的优越性。  相似文献   

8.
近年来,混合型数据的聚类问题受到广泛关注。作为处理混合型数据的一种有效方法,K-prototype聚类算法在初始化聚类中心时通常采用随机选取的策略,然而这种策略在很多实际应用中难以保证聚类结果的质量。针对上述问题,采用基于离群点检测的策略来为K-prototype算法选择初始中心,并提出一种新的混合型数据聚类初始化算法(initialization of K-prototype clustering based on outlier detection and density, IKP-ODD)。给定一个候选对象,IKP-ODD通过计算其距离离群因子、加权密度以及与已有初始中心之间的加权距离来判断候选对象是否是一个初始中心。IKP-ODD通过采用距离离群因子和加权密度,防止选择离群点作为初始中心。在计算对象的加权密度以及对象之间的加权距离时,采用邻域粗糙集中的粒度邻域熵来计算每一个属性的重要性,并根据属性重要性的大小为不同属性赋予不同的权重,有效地反映不同属性之间的差异性。在多个UCI数据集上的实验表明,相对于现有的初始化方法,IKP-ODD能够更好地解决K-prototype聚类的初始化问题。  相似文献   

9.
香农的信息熵被广泛用于粗糙集.利用粗糙集中的粗糙熵来检测离群点,提出一种基于粗糙熵的离群点检测方法,并应用于无监督入侵检测.首先,基于粗糙熵提出一种新的离群点定义,并设计出相应的离群点检测算法-–基于粗糙熵的离群点检测(rough entropy-based outlier detection,REOD);其次,通过将入侵行为看作是离群点,将REOD应用于入侵检测中,从而得到一种新的无监督入侵检测方法.通过多个数据集上的实验表明,REOD具有良好的离群点检测性能.另外,相对于现有的入侵检测方法,REOD具有较高的入侵检测率和较低的误报率,特别是其计算开销较小,适合于在海量高维的数据中检测入侵.  相似文献   

10.
基于粒计算的规则获取在一定程度上弥补规则获取算法的缺陷,然而大多数算法仅适用于处理名词型数据.为了从多粒度、多层次的角度处理数值型或混合型数据,基于邻域多粒度粗糙集模型,通过计算邻域多粒度条件粒与决策粒,分析条件粒在规则获取过程中的冗余关系,进而通过剪枝规则获取过程中的冗余条件粒.在此基础上,设计较高效的基于最大粒的悲观邻域多粒度粗糙集规则获取算法.通过理论分析与实例对比验证算法的有效性和优越性.  相似文献   

11.
针对基于密度的局部离群因子算法(LOF),需要计算距离矩阵来进行[k]近邻查寻,算法时间复杂度高,不适合大规模数据集检测的问题,提出基于网格查询的局部离群点检测算法。算法利用距离目标网格中的数据点最近的[k]个其他数据点,一定在该目标网格或在该目标网格的最近邻接网格中这一特性,来改进LOF算法的邻域查询操作,以此减少LOF算法在邻域查询时的计算量。实验结果证明,提出的LOGD算法在与原LOF算法具有基本相同的检测准确率的情况下,能够有效地降低离群点检测的时间。  相似文献   

12.
针对多工况过程数据的批次不等长、中心漂移、工况结构不同等特点,提出基于统计模量和局部近邻标准化的局部离群因子故障检测方法(SP-LNS-LOF)。首先计算每个训练样本的统计模量;然后使用局部近邻集标准化统计模量,得到标准样本;最后计算标准化样本的局部离群因子,并将其作为检测指标,将局部离群因子的分位点作为检测控制限,当在线样本的局部离群因子大于检测控制限时,判定其为故障;否则为正常。统计模量提取过程的主要信息,且消除批次不等长的影响;局部近邻标准化克服工况中心漂移和工况结构不同的困难;局部离群因子度量样本的相似度,实现故障样本和正常样本的分离。进行了半导体蚀刻过程故障检测仿真实验,实验结果表明SP-LNS-LOF检测出了全部21个故障,比主元分析(PCA)、核主元分析(kPCA)、基于k近邻的故障检测(FD-kNN)、局部离群因子(LOF)方法具有更高的检测率。理论分析和仿真实验说明SP-LNS-LOF方法适用于多工况过程故障检测,具有较高的故障检测效率,能保证多工况生产过程的安全性。  相似文献   

13.
目前粗糙集的研究局限于有限集,且现有的邻域粗糙集属性约简算法中属性重要性度量方式单一。针对邻域粗糙集存在的问题,提出了基于无限集的邻域近似条件熵模型。该模型以邻域近似条件熵下的属性重要度为启发条件,构造了一种基于邻域近似条件熵的前向贪心搜索属性约简算法。利用熵的单调性,证明了算法的正确性,并分析了算法的时间复杂度。通过实例分析和多个UCI数据集上的实验表明,所提出的算法是可行的,能有效减少属性数量,与现有的算法相比,不仅能够获得较小的属性约简结果,而且具有较好的分类性能。  相似文献   

14.
异常检测一直是数据挖掘领域的重要工作之一。基于欧式距离的异常检测算法在应用于高维数据时存在检测精度无法保证和运行时间过长的问题。在基于角度方差的异常检测算法基础上提出了一种多层次的高维数据异常检测算法(Hybrid outlier detection algorithm based on angle variance for High-dimensional data, HODA)。算法结合了粗糙集理论,分析属性之间的相互作用以排除影响较小的属性;通过分析各维度上的数据分布,对数据进行网格划分,寻找可能存在异常点的网格;最后对可能存在异常点的网格计算角度方差异常因子,筛选异常数据。实验结果表明,与ABOD, FastVOA和经典LOF算法相比,HODA算法在保证精测精度的前提下,运行时间显著缩短且可扩展性强。  相似文献   

15.
离群点检测是数据挖掘领域的重要研究方向之一,可以从大量数据中发现少量与多数数据有明显区别的数据对象。在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术。为了提高离群点检测准确度,文中在局部离群测度(SLOM)算法的基础上,作了一些改进,提出了一种基于密度的局部离群点检测算法ESLOM。引入信息熵确定数据对象的离群属性,并对对象距离采用加权距离,以提高离群点检测准确度。理论分析和实验表明该算法是可行有效的。  相似文献   

16.
离群数据挖掘是为了找出隐含在海量数据中相对稀疏而孤立的异常数据模式,但传统的离群数据挖掘方法受人为因素影响较大.通过引入基于信息熵的离群度量因子,给出一种离群数据挖掘新算法.该算法先利用信息熵计算每个数据对象的离群度量因子,然后通过离群度量因子来衡量每个对象的离群程度,进而检测离群数据,有效地消除了人为主观因素对离群检测的影响,并能很好地解释离群点的含义.最后,采用UCI和恒星光谱数据作为实验数据,通过对实验的分析,验证了该算法的可行性和有效性.  相似文献   

17.
在分析邻域粗糙集模型弊端的基础上,提出了非对称变邻域粗糙集模型,并以全局属性重要度为启发条件,构造了基于非对称变邻域粗糙集模型的属性约简的启发式算法.利用6个UCI标准数据集与现有算法进行了比较分析,结果表明,该模型不仅可以选择较少的属性个数,而且还能保持较高的分类能力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号