首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 916 毫秒
1.
由于可以从多粒度、多层次的角度对名词型和数值型属性并存的混合数据进行有效处理,邻域多粒度粗糙集模型受到了广泛关注.为了有效降低属性约简计算过程中的迭代次数,实现邻域多粒度粗糙集模型的快速属性约简算法,基于双重粒化准则,深入分析不同属性子集序列和邻域半径对正域的影响,结合正域在属性子集和邻域半径共同作用下的单调性,提出一种基于双重粒化准则的邻域多粒度粗集快速约简算法,并通过理论分析与实例对比验证了算法的有效性和优越性.  相似文献   

2.
李艳  范斌  郭劼  林梓源  赵曌 《计算机科学》2021,48(z1):342-348
基于k-原型聚类和等价关系下的粗糙集理论,对含有连续值和符号值的目标信息系统提出了一种新的适用于混合数据的属性约简方法.首先,k-原型聚类可以通过定义混合数据的距离而得到信息系统的类簇,形成对论域的划分.将所得到的类簇代替粗糙集理论中的等价类,提出基于聚类的近似集、正域以及正域约简的概念,并根据信息熵定义属性重要性度量,建立了变精度正域约简方法.这种属性约简可以同时处理数值型和符号型数据,去除其中的冗余属性,提高分类性能,降低存储和算法运行时间耗费,并通过调节聚类参数k得到对论域不同粒度的划分,对所得到的约简进行优化.最后在UCI数据集上进行了大量的实验,针对分类问题采用了常见的4种分类算法,比较了约简前后的分类精度,详细分析了参数对结果的影响,验证了约简方法的有效性.  相似文献   

3.
优势关系下不协调信息系统的正域约简   总被引:4,自引:0,他引:4  
陈娟  王国胤  胡军 《计算机科学》2008,35(3):216-218
传统粗糙集对信息系统的处理是基于等价关系的,对于含有数值型的信息系统首先必须进行离散化,因此等价关系不利于处理连续值,也不能反映现实数据之间存在的序关系.本文基于优势关系在不协调信息系统中引入正域约简的概念,提出了优势关系下基于属性重要性的正域约简算法,为获取可信度较高的规则的循环正域约简算法.  相似文献   

4.
阐述邻域粗糙集和邻域信息熵的基本定义及性质,为避免数值属性信息系统属性约简过程中,属性离散化造成特征信息的丢失,提出一种新的基于邻域信息熵度量数值属性约简算法。扩展邻域信息系统核属性集生成约简属性集,邻域信息熵度量不仅关注约简属性集正域变化,而且考察负域样本空间约简属性邻域等价类在决策属性划分的分布,具备更好的邻域关系度量细粒度。实验表明,对比邻域粗糙集近似度量、邻域有效信息率度量、邻域软间隔度量的属性约简方法,该算法能有效进行邻域信息系统属性约简的同时,也保持了约简属性集更好的分类精度。  相似文献   

5.

为了从多粒度、多层次的角度有效处理名义型属性和数值型属性并存的混合数据, 首先基于不同的属性集序列和不同的邻域半径构建双重粒化准则, 建立基于双重粒化准则的邻域多粒度粗糙集模型; 然后给出该模型的相关性质, 提出该模型下的属性约简算法, 约简结果可以根据实际问题的需要灵活选择合适的属性集和邻域半径. 实例分析验证了所提出模型和算法的有效性.

  相似文献   

6.
陈迎春  李鸥  孙昱 《控制与决策》2018,33(8):1407-1414
针对传感网采集数据的不完备性,利用数据本身特点,通过定义类簇指标,提出基于改进K-means聚类算法的数据离散化方法,以减小噪声、孤立点和不完备数据集对决策识别结果产生的影响;然后,通过引入互信息熵的属性重要度度量和变精度修正系数,提出基于互信息熵的变精度邻域粗糙集属性约简启发式算法,整合变精度和邻域粗糙集的优势,在减小约简算法计算复杂度的同时提高决策系统识别精度.仿真结果表明了算法在提高决策系统识别精度和降低其计算复杂度方面的有效性,模拟环境测试进一步验证了其工程适用性.  相似文献   

7.
基于正域的属性约简算法是利用"下近似"思想,仅考虑被正确区分样本数的约简算法。借鉴"上近似"的思想,利用"邻域信息粒"的概念定义了区分对象集,探讨了其基本性质,并提出了基于区分对象集的属性重要度度量及启发式属性约简算法。该约简算法既考虑信息决策表的相对正域,也考虑以核属性为启发信息逐个增加条件属性时对边界域样本的影响。通过实例分析,说明了所提算法的可行性,并且以6个UCI标准数据集为实验对象,与基于正域的属性约简算法进行对比实验。实验结果说明,采用提出的约简算法得到的约简属性集,与基于正域的属性约简算法相比,在进行分类任务时的分类精度能够保持不变或有所提高。  相似文献   

8.
.连续属性离散化算法比较研究*   总被引:2,自引:0,他引:2  
探讨了贪心及其改进算法、基于属性重要性、基于信息熵和基于聚类四类连续属性离散化算法,并通过实验验证这四类算法的离散化效果.实验结果表明,数据集离散化的效果不仅取决于使用算法,而且与数据集连续属性的分布和决策数据值的分类也有密切关系.  相似文献   

9.
对具有连续属性值的信息系统的属性约简是粗糙集理论的研究热点之一。区别于传统通过连续属性离散化方法定义的等价关系,提出利用自适应的模糊C均值聚类的初步划分能力定义一种相似关系以及其自适应形式。基于该相似关系定义的粗糙集模型较好地排除噪声数据。提出正域与非正域定义以及从中导出的一种重要度以指导属性约简。与现有方法的比较实验表明该方法在属性约简上具有有效性和稳定性以及约简结果的合理性。  相似文献   

10.
一种基于层次聚类的属性全局离散化算法   总被引:1,自引:0,他引:1  
本文摒弃了以往利用断点集来进行离散化的算法思想,提出了一种新的基于粗糙集和分裂的层次聚类的全局离散化算法.本算法在层次聚类的基础上考虑不同连续属性离散化结果间的互补性和相关性,在不改变原信息系统不可分辨关系的前提下通过增类减类进行全局离散化.实验表明该算法具备了删除不必要属性的能力,提高了离散化的精度,更便于属性约简.  相似文献   

11.
赵小龙  杨燕 《控制与决策》2019,34(10):2061-2072
增量式属性约简是针对动态型数据的一种重要的数据挖掘方法,目前已提出的增量式属性约简算法大多基于离散型数据构建,很少有对数值型数据进行相关的研究.鉴于此,提出一种数值型信息系统中对象不断增加的增量式属性约简算法.首先,在数值型信息系统中建立一种分层的邻域粒化计算方法,并基于该方法提出邻域粒化的增量式计算;然后,在邻域粒化增量式计算的基础上给出邻域粒化条件熵的增量式更新方法,并基于该更新机制提出对应的增量式属性约简算法;最后,通过实验分析表明所提出算法对于数值型数据的增量式属性约简具有更高的有效性和优越性.  相似文献   

12.
朱红  丁世飞 《计算机科学》2016,43(2):95-97, 128
提出了一种基于属性区分能力和AP聚类的属性粒化方法(Attribute Granulation based on attribute discernibility and AP algorithm,AGAP)。该方法首先依据属性依赖度计算属性的区分能力;然后将所有属性作为潜在的聚类中心,使用AP算法聚类,得到若干个属性簇类;最后采取选用代表属性的方法得到较粗的属性粒子,从而达到属性粗粒化的要求。对高维数据的特征降维,这种算法比传统的属性约简算法大大提高了运算效率,在属性粒化精度要求不是很严格的情况下,所提算法优势明显。  相似文献   

13.
王蓉  刘遵仁  纪俊 《计算机科学》2018,45(7):197-201, 229
作为经典Pawlak粗糙集的扩展,邻域粗糙集能有效处理数值型的数据。但是,因为引入了邻域粒化的概念,所以邻域实数空间下的计算量要比经典离散空间下的计算量大得多。对于邻域粗糙集算法而言,能够有效且快速地找到数据集的属性约简是十分有意义的。为此,针对现有算法中属性重要度定义的不足,首先提出了一种改进的投票式属性重要度,然后进一步提出了一种基于投票式属性重要度的快速属性约简算法。实验证明,与现有算法相比,在保证分类精度的前提下,该算法能更快速地得到属性约简。  相似文献   

14.
针对现有粗糙集属性约简方法中存在的连续数据处理时的信息丢失、粒化策略引入不一致信息、参数寻优困难等问题,提出一种适用于连续型数据、基于类别可区分度的非单调性启发式属性约简算法。首先以各样本的标签为依据对论域进行划分,同一标签的样本组合成一个簇,定义每个簇的类间可区分度和类内可区分度;其次,以最大化类间可区分度、最小化类内可区分度为约简原则,定义了一种新的属性重要性判别准则以确定最优约简集,从而提高后续分类器的分类性能。在十一个UCI数据集上与其他六种属性约简算法进行对比实验。结果表明,与六种算法相比,所提算法获得的约简集平均维度减小了1.16,平均分类精度提高了3.42%,其表现出更好的约简性能。  相似文献   

15.
增量式属性约简是一种针对动态数据集的新型属性约简方法。然而目前的增量式属性约简很少有对不完备混合型的信息系统进行研究。针对这类问题提出一种属性增加时的增量式属性约简算法。在不完备混合型信息系统下引入邻域容差关系。基于邻域容差关系的粒化单调性,提出信息系统属性增加时邻域容差条件熵的增量式更新方法,并提出了不完备混合型信息系统下的邻域容差条件熵增量式属性约简算法。实验分析表明了该算法的有效性。  相似文献   

16.
陈黎飞  郭躬德 《软件学报》2013,24(11):2628-2641
类属型数据广泛分布于生物信息学等许多应用领域,其离散取值的特点使得类属数据聚类成为统计机器学习领域一项困难的任务.当前的主流方法依赖于类属属性的模进行聚类优化和相关属性的权重计算.提出一种非模的类属型数据统计聚类方法.首先,基于新定义的相异度度量,推导了属性加权的类属数据聚类目标函数.该函数以对象与簇之间的平均距离为基础,从而避免了现有方法以模为中心导致的问题.其次,定义了一种类属型数据的软子空间聚类算法.该算法在聚类过程中根据属性取值的总体分布,而不仅限于属性的模,赋予每个属性衡量其与簇类相关程度的权重,实现自动的特征选择.在合成数据和实际应用数据集上的实验结果表明,与现有的基于模的聚类算法和基于蒙特卡罗优化的其他非模算法相比,该算法有效地提高了聚类结果的质量.  相似文献   

17.
邻域粗糙集是数值型属性数据处理的有效工具.基于邻域粗糙集,传统依赖度及其约简未考虑邻域覆盖的绝对结构,由此文中建立加权依赖度及其启发式约简算法.首先,提出加权依赖度并得到其度量改进性与粒化单调性,定义相关的属性约简.然后,分析邻域半径的自适应取值,构造基于加权依赖度的启发式约简算法(NWDR).最后,在UCI数据集上进行对比实验,验证加权依赖度的单调性与NWDR的有效性.实验证明,加权依赖度改进传统依赖度的不确定性表示能力,NWDR具有较高的分类准确率与较强的应用适应性.  相似文献   

18.
姚晟  汪杰  徐风  陈菊 《计算机应用》2018,38(1):97-103
针对现有的属性约简算法不适合处理数值型属性和符号型属性共同存在的不完备数据,提出了一种拓展不完备邻域粗糙集模型。首先,通过考虑属性值的概率分布来定义缺失属性值之间的距离,可以度量具有混合属性的不完备数据;其次,定义了邻域混合熵来评价属性约简的质量,分析证明了相关的性质定理,并构造了一种基于邻域混合熵的不完备邻域粗糙集属性约简算法;最后从UCI数据集中选取了7组数据进行实验,并分别与基于依赖度的属性约简(ARD)、基于邻域条件熵的属性约简(ARCE)、基于邻域组合测度的属性约简(ARNCM)算法进行了比较。理论分析和实验结果表明,所提算法约简属性比ARD、ARCE、ARNCM分别减少了约1,7,0个,所提算法的分类精度比ARD、ARCE、ARNCM分别提高了约2.5,2.1,0.8个百分点。所提算法不仅能够获得较少的约简属性,同时具有较高的分类精度。  相似文献   

19.
一种有效的用于数据挖掘的动态概念聚类算法   总被引:11,自引:0,他引:11  
郭建生  赵奕  施鹏飞 《软件学报》2001,12(4):582-591
概念聚类适用于领域知识不完整或领域知识缺乏时的数据挖掘任务.定义了一种基于语义的距离判定函数,结合领域知识对连续属性值进行概念化处理,对于用分类属性和数值属性混合描述数据对象的情况,提出了一种动态概念聚类算法DDCA(domain-baseddynamicclusteringalgorithm).该算法能够自动确定聚类数目,依据聚类内部属性值的频繁程度修正聚类中心,通过概念归纳处理,用概念合取表达式解释聚类输出.研究表明,基于语义距离判定函数和基于领域知识的动态概念聚类的算法DDCA是有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号