首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 390 毫秒
1.
《计算机科学与探索》2019,(8):1422-1430
属性约简是粗糙集理论中最重要的研究问题之一。近年来,粗糙集理论下的属性约简问题引发了学者们广泛的关注。然而,大多数属性约简方法都是基于不可分辨或可分辨关系所提出的,属性约简的性能仅仅取决于等价类或近似集的变化,却忽略了不具有等价关系的对象所在的不同类簇间关系的变化情况。因此,引入了类间区分度的概念,相较于等价类和上下近似集而言,它可以反映类簇区分程度随属性变化而变化的情况。对类间重合度和类间区分度进行了解释及定义,并结合启发式搜索策略,提出了一种基于类间区分度的属性约简方法,实验验证了所提方法的有效性。  相似文献   

2.
针对传统属性约简算法利用等价关系计算过程繁琐,样本集较大时运行时间长的问题,提出一种利用模糊欧氏距离的快速属性约简算法。定义模糊欧氏距离计算属性间距离;应用层次商空间结构构建约简粒层空间;以粒层空间聚类结果作为约简基础,实现样本集属性约简。仿真结果表明,该算法约简速度不受样本集样本数量限制,运算速度较快,能够在不删除样本的情况下实现数据的快速约简,约简后对数据集分类精度影响小,部分数据集分类精度有所提升,为大规模数据集约简提供了新的研究思路。  相似文献   

3.
针对现有层次聚类算法难以处理不完备数据集,同时考虑样本与类簇之间的不确定关系,提出一种面向不完备数据的集对粒层次聚类算法-SPGCURE.首先,采用集对信息粒的知识对缺失值进行处理,不同于以往算法中将缺失属性删除或者填充,用集对联系度中的差异度来表示缺失属性值,提出一种改进的集对信息距离度量方法,用于考量不完备数据样本间的紧密程度;其次,基于改进后的集对距离度量,给出各个类簇的类内平均距离的定义,形成以正同域Cs(样本一定属于类簇)、边界域Cu(样本可能属于类簇)和负反域Co(样本不属于类簇)表示的集对粒层次聚类;SPGCURE算法在完备和不完备数据都适用,最后,选用5个经典的UCI数据集,与常用的经典及改进聚类算法进行实验评价,结果表明,SPGCURE算法在准确度、F-measure、调整兰德系数和标准互信息等指标上均具有不错的聚类性能.  相似文献   

4.
传统的K均值聚类算法采用欧式距离计算样本间的相似度,由于未考虑不同样本属性对于衡量样本间距离区分度的重要性,导致相似度计算不准确,聚类性能较差。提出了一种改进的K均值聚类算法,通过计算每个属性相对于聚类类别的信息增益率,将信息增益率作为属性权重计算加权欧式距离,使对类别区分度贡献较大的属性拥有较大的权重,以提高样本间的相似性度量的准确性。在经典的入侵检测数据集UCI KDD CUP上的实验结果证明,与传统的基于K均值的入侵检测方法相比,此方法能够有效地提高检测准确率。  相似文献   

5.
属性约简能有效地去除不必要属性,提高分类器的性能。模糊粗糙集是处理不确定信息的重要范式,能有效地应用于属性约简。在模糊粗糙集中,样本分布的不确定性会影响对象的近似集,进而影响有效属性约简的获取。为有效地定义近似集,文中提出了基于距离比值尺度的模糊粗糙集,该模型引入了基于距离比值尺度的样本集的定义,通过对距离比值尺度的控制,避免了样本分布不确定性对近似集的影响;给出了该模型的基本性质,定义了新的依赖度函数,进而设计了属性约简算法;以SVM,NaiveBayes和J48作为测试分类器,在UCI数据集上评测所提算法的性能。实验结果表明,所提出的属性约简算法能够有效获取约简并提高分类的精度。  相似文献   

6.
李艳  范斌  郭劼  林梓源  赵曌 《计算机科学》2021,48(z1):342-348
基于k-原型聚类和等价关系下的粗糙集理论,对含有连续值和符号值的目标信息系统提出了一种新的适用于混合数据的属性约简方法.首先,k-原型聚类可以通过定义混合数据的距离而得到信息系统的类簇,形成对论域的划分.将所得到的类簇代替粗糙集理论中的等价类,提出基于聚类的近似集、正域以及正域约简的概念,并根据信息熵定义属性重要性度量,建立了变精度正域约简方法.这种属性约简可以同时处理数值型和符号型数据,去除其中的冗余属性,提高分类性能,降低存储和算法运行时间耗费,并通过调节聚类参数k得到对论域不同粒度的划分,对所得到的约简进行优化.最后在UCI数据集上进行了大量的实验,针对分类问题采用了常见的4种分类算法,比较了约简前后的分类精度,详细分析了参数对结果的影响,验证了约简方法的有效性.  相似文献   

7.
李艳  范斌  郭劼 《计算机应用》2022,42(9):2701-2712
属性约简是粗糙集理论中的研究热点,对连续值数据进行属性约简的算法大多基于优势关系或邻域关系。然而连续值数据集的属性不一定具有优势关系;而基于邻域关系的属性约简算法虽然可以通过邻域半径调整粒化程度,不过由于各属性量纲不同且半径参数为连续值使半径难以统一,导致整个参数粒化过程计算量较大。为解决此问题,提出一种基于聚类粒化的多粒度属性约简策略。首先,利用聚类方法将相似样本归类,并提出了基于聚类的近似集、相对正域及正域约简概念;其次,根据JS(Jensen-Shannon)散度理论对簇间各属性数据分布进行差异性度量,并选择出具有代表性的特征用以区分不同类簇;最后,利用可辨识矩阵设计了属性约简算法。所提算法不要求属性具有序关系,且不同于邻域半径,聚类参数为离散值,调节此参数就能够对数据集形成不同粒化程度的划分。在UCI与Kent Ridge数据集上进行的实验结果表明,该属性约简算法可以直接处理连续值数据,且该算法在较小范围内离散地调节聚类参数便能在保持甚至提高分类精度的前提下去除数据集中的冗余特征。  相似文献   

8.
属性约简是粗糙集核心内容之一,然而,传统基于邻域粗糙集的局部约简算法具有以下两个问题:1)经典邻域粗糙集没有关注到半径变化对样本标签的影响,以致于不同标签样本被划分到相同邻域;2)传统的属性约简算法只有一个约束条件,缺乏适用性.为了解决这一难题,论文从局部视角出发,利用伪标签邻域粗糙集模型,构建了一种属性约简方法.实验选取五组UCI数据集,通过多个算法的对比分析,论文所提算法提高了分类性能.  相似文献   

9.
全粒度粗糙集时空复杂度较高,难于计算属性约简.针对此问题,文中利用等价类定义信息系统中的可区分度,并研究其性质,证明基于可区分度的属性约简等价于绝对约简.定义决策系统中的正区域可区分度,并探究其性质,证明基于正区域可区分度约简是全粒度Pawlak约简的超集,但绝大部分情况下等于全粒度Pawlak约简,可作为全粒度Pawlak约简的近似.理论分析和实验表明,相比其它属性约简算法,基于正区域可区分度约简在计算复杂度和分类准确率等方面具有较大优势.  相似文献   

10.
冯丹    黄洋  石云鹏  王长忠 《智能系统学报》2017,12(3):371-376
属性约简是粗糙集理论在数据处理方面的重要应用,已有的针对连续型数据的属性约简算法主要集中在基于正域的贪心算法,该方法只考虑了一致样本和其他样本的可辨识性,而忽略了边界样本点间可区分性。为了克服基于正域算法的缺点,提出了连续型数据的辨识矩阵属性约简模型,该模型不但考虑了正域样本的一致性,同时考虑了边界样本的可分性。基于该模型,分析了属性约简结构,定义了辨识矩阵来刻画特征子集的分类能力,构造了实值型数据的属性约简启发式算法,并利用UCI标准数据集进行了验证。理论分析和实验结果表明,提出的算法能够有效地处理连续型数据,提高了数据的分类精度。  相似文献   

11.
基于近似决策熵的属性约简   总被引:3,自引:0,他引:3  
粗糙集理论已被证明是一种有效的属性约简方法. 目前有许多启发式属性约简算法已被提出, 其中基于信息熵的属性约简算法受到了广泛的关注. 为此, 针对现有的基于信息熵的属性约简算法问题, 定义一种新的信息熵模型—–近似决策熵, 并提出一种基于近似决策熵的属性约简(ADEAR) 算法. 通过在多个UCI 数据集上的实验表明, 与现有算法相比, ADEAR算法能够获得较小的约简和较高的分类精度, 具有相对较低的计算开销.  相似文献   

12.
在多标记分类问题中,每个样本可以同时与多个标记类别相关,其中一些标记之间可能具有相关性,充分利用这些标记相关性,可优化分类性能.因此,文中利用标记的频繁项集对标记相关性进行挖掘,提出针对基于邻域粗糙集的多标记属性约简算法进行改进的特征选择算法,并进一步将训练样本根据特征之间的相似性进行聚类,结合局部样本上的标记相关性,进行属性约简及分类.在5个多标记分类数据集上的实验验证文中算法的有效性.  相似文献   

13.
陈迎春  李鸥  孙昱 《控制与决策》2018,33(8):1407-1414
针对传感网采集数据的不完备性,利用数据本身特点,通过定义类簇指标,提出基于改进K-means聚类算法的数据离散化方法,以减小噪声、孤立点和不完备数据集对决策识别结果产生的影响;然后,通过引入互信息熵的属性重要度度量和变精度修正系数,提出基于互信息熵的变精度邻域粗糙集属性约简启发式算法,整合变精度和邻域粗糙集的优势,在减小约简算法计算复杂度的同时提高决策系统识别精度.仿真结果表明了算法在提高决策系统识别精度和降低其计算复杂度方面的有效性,模拟环境测试进一步验证了其工程适用性.  相似文献   

14.
对于约简来说,其前提是保证知识库分类能力不变,由此引入弱约简的定义。利用区分矩阵能很容易计算出弱约简和遗传算法可以在全局寻优的优势,将染色体对区分函数的覆盖度作为适应度函数的参数,提出了一种基于遗传算法和区分矩阵的属性约简算法。算法中从粒计算的角度,重新度量粒度,对基于划分和覆盖的粗糙集决策表进行了研究。用k近邻算法通过准确率对弱约简效果进行评估。通过UCI数据集证明了该算法的有效性。该算法的时间复杂度是多项式的。  相似文献   

15.
姚晟  汪杰  徐风  陈菊 《计算机应用》2018,38(1):97-103
针对现有的属性约简算法不适合处理数值型属性和符号型属性共同存在的不完备数据,提出了一种拓展不完备邻域粗糙集模型。首先,通过考虑属性值的概率分布来定义缺失属性值之间的距离,可以度量具有混合属性的不完备数据;其次,定义了邻域混合熵来评价属性约简的质量,分析证明了相关的性质定理,并构造了一种基于邻域混合熵的不完备邻域粗糙集属性约简算法;最后从UCI数据集中选取了7组数据进行实验,并分别与基于依赖度的属性约简(ARD)、基于邻域条件熵的属性约简(ARCE)、基于邻域组合测度的属性约简(ARNCM)算法进行了比较。理论分析和实验结果表明,所提算法约简属性比ARD、ARCE、ARNCM分别减少了约1,7,0个,所提算法的分类精度比ARD、ARCE、ARNCM分别提高了约2.5,2.1,0.8个百分点。所提算法不仅能够获得较少的约简属性,同时具有较高的分类精度。  相似文献   

16.
针对基于正域的属性约简算法在约简过程中存在重复计算属性相对重要度从而导致算法效率低的问题,从属性度量和搜索策略的角度提出基于知识粗糙熵的快速属性约简算法。首先,在决策信息系统中通过引入知识距离提出知识粗糙熵以度量知识的粗糙程度;其次,利用知识粗糙熵作为属性显著度的评价标准来评估单个属性的重要程度;最后,利用属性重要度对所有条件属性进行排序,且通过属性依赖度删除冗余属性,从而实现快速约简。在六个公开数据集上将所提算法与其他三种算法在运行效率和分类精度上进行对比实验。结果表明,该算法的运行效率比其他三种算法分别提高了83.24%、28.77%和59.92%;在三种分类器中,分类精度分别平均提高了0.83%、0.63%和1.37%。因此,所提算法在保证分类性能的同时,能以更快的速度获得约简。  相似文献   

17.
In traditional decision (classification) tree algorithms, the label is assumed to be a categorical (class) variable. When the label is a continuous variable in the data, two possible approaches based on existing decision tree algorithms can be used to handle the situations. The first uses a data discretization method in the preprocessing stage to convert the continuous label into a class label defined by a finite set of nonoverlapping intervals and then applies a decision tree algorithm. The second simply applies a regression tree algorithm, using the continuous label directly. These approaches have their own drawbacks. We propose an algorithm that dynamically discretizes the continuous label at each node during the tree induction process. Extensive experiments show that the proposed method outperforms the preprocessing approach, the regression tree approach, and several nontree-based algorithms.  相似文献   

18.
汪琼枝  郑文曦  王道然 《计算机科学》2016,43(Z6):81-82, 102
属性约简是Rough集理论的重要研究内容,基于信息熵的属性约简是一种有效的属性约简方法。在实际应用中,获取的信息系统通常是不完备的。针对这种问题,在容差关系下对个体进行分类时,基于属性子集redu与CAttr(属性全集)-redu之间的内在联系,定义了一种新的知识熵,提出了一种新的应用近似模糊熵的不完备信息系统属性约简算法(newS算法),其时间复杂度是O(|C|2∑mi=1(kpi)2)。最后,在ROSE和UCI data中的6个数据集上进行了实验仿真,结果表明newS算法是可行的,并且在同等约简效果下与其他算法相比具有更高的属性约简效率。  相似文献   

19.
姚晟  徐风  吴照玉  陈菊  汪杰  王维 《控制与决策》2019,34(2):353-361
属性约简是粗糙集理论一项重要的应用,目前已广泛运用于机器学习和数据挖掘等领域,邻域粗糙集是粗糙集理论中处理连续型数据的一种重要方法.针对目前邻域粗糙集模型中属性约简存在的缺陷,构造一种基于邻域粗糙集的邻域粗糙熵模型,并基于此给出邻域粗糙联合熵、邻域粗糙条件熵和邻域粗糙互信息熵等概念.邻域粗糙互信息熵是评估属性集相关性的一种重要的方法,具有非单调性变化的特性,对此,提出一种基于邻域粗糙互信息熵的非单调性属性约简算法.实验分析表明,所提出算法不仅比目前已有的单调性属性约简算法具有更优越的属性约简结果,而且具有更高的约简效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号