首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
基于约简数据集的FCM聚类算法   总被引:1,自引:0,他引:1  
为了解决模糊C-均值(FCM)聚类算法在使用欧氏距离计算样本与类中心点的距离时计算量大的问题,提出了一种基于属性约简的FCM聚类算法.该算法根据粗糙集理论对初始数据进行属性约简,消除数据对象中的冗余值,然后再对约简后的属性集进行模糊聚类.实验结果表明,该算法能有效减少FCM算法的距离函数计算量,在不降低聚类精度的前提下,提高了FCM算法的执行效率.  相似文献   

2.
属性约简能有效地去除不必要属性,提高分类器的性能。模糊粗糙集是处理不确定信息的重要范式,能有效地应用于属性约简。在模糊粗糙集中,样本分布的不确定性会影响对象的近似集,进而影响有效属性约简的获取。为有效地定义近似集,文中提出了基于距离比值尺度的模糊粗糙集,该模型引入了基于距离比值尺度的样本集的定义,通过对距离比值尺度的控制,避免了样本分布不确定性对近似集的影响;给出了该模型的基本性质,定义了新的依赖度函数,进而设计了属性约简算法;以SVM,NaiveBayes和J48作为测试分类器,在UCI数据集上评测所提算法的性能。实验结果表明,所提出的属性约简算法能够有效获取约简并提高分类的精度。  相似文献   

3.
粗糙集中的属性约简算法如PawlakZ约简算法及Skowron算法均可有效找到约简的属性集,但都要花费巨大的时间、空间,且对于大数据集约简几乎不可能。针对以上经典算法的不足,文章提出一种快速属性约简算法。算法先将所有样本按决策属性分类,且用不同颜色的桶来装样本。其次,通过深度搜索结合广度搜索的策略,利用几个条件属性集的交集划分得到数据集的约简。在运算过程中,不断地删除交集中的数据,可有效提高效率。实验表明,该算法切实可行,可快速地找到属性约简集,并结合实例,说明了算法的可行性。  相似文献   

4.
王蓉  刘遵仁  纪俊 《计算机科学》2018,45(7):197-201, 229
作为经典Pawlak粗糙集的扩展,邻域粗糙集能有效处理数值型的数据。但是,因为引入了邻域粒化的概念,所以邻域实数空间下的计算量要比经典离散空间下的计算量大得多。对于邻域粗糙集算法而言,能够有效且快速地找到数据集的属性约简是十分有意义的。为此,针对现有算法中属性重要度定义的不足,首先提出了一种改进的投票式属性重要度,然后进一步提出了一种基于投票式属性重要度的快速属性约简算法。实验证明,与现有算法相比,在保证分类精度的前提下,该算法能更快速地得到属性约简。  相似文献   

5.
传统的属性约简方法将整个数据集一次性装入内存,很难适应大数据背景下的数据分析。为此文中提出基于粒计算与区分能力的属性约简算法。该算法运用统计学中的分层抽样技术,拆分原始大数据集为多个样本子集(粒),在每个粒上运用属性的区分能力进行属性约简,最后将各粒约简结果进行加权融合,得到原始大数据集的属性约简结果。实验表明该算法对海量数据集进行属性约简的可行性和高效性。  相似文献   

6.
李艳  范斌  郭劼 《计算机应用》2022,42(9):2701-2712
属性约简是粗糙集理论中的研究热点,对连续值数据进行属性约简的算法大多基于优势关系或邻域关系。然而连续值数据集的属性不一定具有优势关系;而基于邻域关系的属性约简算法虽然可以通过邻域半径调整粒化程度,不过由于各属性量纲不同且半径参数为连续值使半径难以统一,导致整个参数粒化过程计算量较大。为解决此问题,提出一种基于聚类粒化的多粒度属性约简策略。首先,利用聚类方法将相似样本归类,并提出了基于聚类的近似集、相对正域及正域约简概念;其次,根据JS(Jensen-Shannon)散度理论对簇间各属性数据分布进行差异性度量,并选择出具有代表性的特征用以区分不同类簇;最后,利用可辨识矩阵设计了属性约简算法。所提算法不要求属性具有序关系,且不同于邻域半径,聚类参数为离散值,调节此参数就能够对数据集形成不同粒化程度的划分。在UCI与Kent Ridge数据集上进行的实验结果表明,该属性约简算法可以直接处理连续值数据,且该算法在较小范围内离散地调节聚类参数便能在保持甚至提高分类精度的前提下去除数据集中的冗余特征。  相似文献   

7.
基于正域的属性约简算法是利用"下近似"思想,仅考虑被正确区分样本数的约简算法。借鉴"上近似"的思想,利用"邻域信息粒"的概念定义了区分对象集,探讨了其基本性质,并提出了基于区分对象集的属性重要度度量及启发式属性约简算法。该约简算法既考虑信息决策表的相对正域,也考虑以核属性为启发信息逐个增加条件属性时对边界域样本的影响。通过实例分析,说明了所提算法的可行性,并且以6个UCI标准数据集为实验对象,与基于正域的属性约简算法进行对比实验。实验结果说明,采用提出的约简算法得到的约简属性集,与基于正域的属性约简算法相比,在进行分类任务时的分类精度能够保持不变或有所提高。  相似文献   

8.
网络信息的多样性和多变性给信息的管理和过滤带来极大困难,为加快网络信息的分类速度和分类精度,提出了一种基于模糊粗糙集的Wdb文本分类方法.采用机器学习的方法:在训练阶段,首先对Web文本信息预处理,用向量空间模型表示文本,生成初始特征属性空间,并进行权值计算;然后用模糊粗糙集算法来进行信息过滤,用基于模糊租糙集的属性约简算法生成分类规则:最后利用知识库进行文档分类.在测试阶段,对未经预处理的文本直接进行关键属性匹配,经模糊粗糙因子加权后,用空间距离法分类.通过试验比较,该方法具有较好的分类效果.  相似文献   

9.
针对传统数据分类属性模型中存在的较为复杂且大数据分类效率低等问题,基于云计算环境,提出利用深度属性加权贝叶斯(deep attribute weighting Bayesian,AWB)算法结合改进差别信息树(differential information tree,DIT)的大数据高效分类方法.利用AWB算法构建大数据训练集的模糊知识库,提高大数据分类精度;采用改进DIT进行模糊粗糙集属性约简,以并行方式利用映射函数对信息进行分区,将洗牌算法融入模糊分类器的设计中,提高大数据分类效率;利用CloudSim仿真器在大型网络数据集对所提方法的性能进行实验论证.实验结果表明,所提方法提高了分类准确度,降低了计算时间,提高了计算效率.  相似文献   

10.
传统的规则挖掘算法通常先约简属性再约简属性值. 该方法存在冗余计算, 当样本集增大时, 复杂性急剧增加. 对此提出一种基于粒计算的最简决策规则挖掘算法. 首先, 在不同粒度空间下计算条件粒与决策粒之间的粒关系矩阵; 然后, 将粒关系矩阵中隐含的信息H 1、H 2 作为启发式算子, 按信息粒约简属性值; 最后, 去除冗余属性并设置终止条件, 实现决策规则的快速挖掘. 理论分析和实验结果表明, 所提出的算法可以获得更简洁的规则, 且规则的泛化能力更强.  相似文献   

11.

Classification is one of the data mining processes used to predict predetermined target classes with data learning accurately. This study discusses data classification using a fuzzy soft set method to predict target classes accurately. This study aims to form a data classification algorithm using the fuzzy soft set method. In this study, the fuzzy soft set was calculated based on the normalized Hamming distance. Each parameter in this method is mapped to a power set from a subset of the fuzzy set using a fuzzy approximation function. In the classification step, a generalized normalized Euclidean distance is used to determine the similarity between two sets of fuzzy soft sets. The experiments used the University of California (UCI) Machine Learning dataset to assess the accuracy of the proposed data classification method. The dataset samples were divided into training (75% of samples) and test (25% of samples) sets. Experiments were performed in MATLAB R2010a software. The experiments showed that: (1) The fastest sequence is matching function, distance measure, similarity, normalized Euclidean distance, (2) the proposed approach can improve accuracy and recall by up to 10.3436% and 6.9723%, respectively, compared with baseline techniques. Hence, the fuzzy soft set method is appropriate for classifying data.

  相似文献   

12.
模糊聚类分析主要研究样本的分类问题.本文利用模糊聚类方法对软件缺陷进行分类,引入缺陷数据属性权重计算方法,依据数据挖掘中的属性邻近性度量方法,对缺陷数据进行相似度分析.并按照属性类别进行分析,不仅体现了缺陷数据属性间的形贴近程度,而且体现了属性之间的距离贴近程度.本文方法对软件缺陷数据进行分析并对比度量结果,实验结果充分说明改进后的模糊聚类相似性度量方法在分类准确性方面有一定程度的提高.  相似文献   

13.
姚晟  汪杰  徐风  陈菊 《计算机应用》2018,38(1):97-103
针对现有的属性约简算法不适合处理数值型属性和符号型属性共同存在的不完备数据,提出了一种拓展不完备邻域粗糙集模型。首先,通过考虑属性值的概率分布来定义缺失属性值之间的距离,可以度量具有混合属性的不完备数据;其次,定义了邻域混合熵来评价属性约简的质量,分析证明了相关的性质定理,并构造了一种基于邻域混合熵的不完备邻域粗糙集属性约简算法;最后从UCI数据集中选取了7组数据进行实验,并分别与基于依赖度的属性约简(ARD)、基于邻域条件熵的属性约简(ARCE)、基于邻域组合测度的属性约简(ARNCM)算法进行了比较。理论分析和实验结果表明,所提算法约简属性比ARD、ARCE、ARNCM分别减少了约1,7,0个,所提算法的分类精度比ARD、ARCE、ARNCM分别提高了约2.5,2.1,0.8个百分点。所提算法不仅能够获得较少的约简属性,同时具有较高的分类精度。  相似文献   

14.
欧彬利  钟夏汝  代建华  杨田 《计算机应用》2020,40(12):3465-3470
精准且快速地识别异常用户行为是入侵检测系统(IDS)的重要任务。针对入侵检测数据维度高、样本量大的问题,提出了基于变精度覆盖粗糙集的相关族属性约简方法,并将其运用至入侵检测数据中。首先,基于覆盖决策表生成条件属性的变精度相关族;然后,在所有条件属性变精度相关族的基础上利用启发式算法求得决策表的属性约简;最后,在上述的基础上结合分类器对入侵检测数据进行检测。实验结果表明,所提方法具有计算属性约简时间短的优点,在大样本数据集上,基于模糊粗糙集依赖度的属性约简算法NFRS运行所需时长为该算法的96倍。在入侵检测数据集NSL-KDD上,该方法可快速识别关键属性,剔除无效信息,其整体准确率可达到90.53%,且对Normal的识别准确率可达到97%。  相似文献   

15.
针对量子粒子群算法具有陷入局部值缺点,提出了一种基于改进量子粒子群算法优化的粗糙集和支持向量机相结合的表具识别算法,引入人工蜂群算法和免疫算法,来提高算法搜索空间、收敛速度。首先通过改进量子粒子群算法优化的粗糙集对得到的特征向量进行属性约简,然后经过改进量子粒子群算法优化支持向量机参数。最后通过实验仿真表明,改进的算法能有效地减少决策属性的个数,提高了粗糙集属性约简能力,优化了支持向量机的参数,算法收敛速度快,识别准确率高。  相似文献   

16.
欧彬利  钟夏汝  代建华  杨田 《计算机应用》2005,40(12):3465-3470
精准且快速地识别异常用户行为是入侵检测系统(IDS)的重要任务。针对入侵检测数据维度高、样本量大的问题,提出了基于变精度覆盖粗糙集的相关族属性约简方法,并将其运用至入侵检测数据中。首先,基于覆盖决策表生成条件属性的变精度相关族;然后,在所有条件属性变精度相关族的基础上利用启发式算法求得决策表的属性约简;最后,在上述的基础上结合分类器对入侵检测数据进行检测。实验结果表明,所提方法具有计算属性约简时间短的优点,在大样本数据集上,基于模糊粗糙集依赖度的属性约简算法NFRS运行所需时长为该算法的96倍。在入侵检测数据集NSL-KDD上,该方法可快速识别关键属性,剔除无效信息,其整体准确率可达到90.53%,且对Normal的识别准确率可达到97%。  相似文献   

17.
针对传统的t分布随机近邻嵌入(t-SNE)算法只能处理单一属型数据,不能很好地处理混合属性数据的问题,提出一种扩展的t-SNE降维可视化算法E-t-SNE,用于处理混合属性数据。该方法引入信息熵概念来构建分类属性数据的距离矩阵,采用分类属性数据距离与数值属性数据欧式距离相结合的方式构建混合属性数据距离矩阵,将新的距离矩阵输入t-SNE算法对数据进行降维并在二维空间可视化展示。此外,为验证算法有效性,采用[k]近邻[(kNN)]算法对混合数据降维后的效果进行评价。通过在UCI数据集上的实验表明,该方法在处理混合属性数据方面,不仅具有较好的可视化能力,而且能有效地对不同类别的数据进行降维分簇,提升后续分类器的分类准确率。  相似文献   

18.
现实世界中常常包含着海量的、不完整的、模糊及不精确的数据或对象,使得模糊信息粒化成为近年来研究趋势。利用论域上的模糊等价关系定义了模糊粒度世界的模糊知识粒度,给出了新的属性约简条件和核属性计算方法,以便更好地挖掘出潜在的、有利用价值的信息。针对粗糙集在对连续属性约简的过程中容易造成信息缺失和不能对模糊属性处理的现象,提出了一种基于模糊知识粒度对混合决策系统约简的启发式算法,省去了连续属性离散化过程,减少了计算量,为离散值域和混合值域约简提供了统一的方法。最后通过实例验证了其有效性。  相似文献   

19.
作为粗糙集理论的一个核心内容,属性约简致力于根据给定的约束条件删除数据中的冗余属性。基于贪心策略的启发式算法是求解约简的一种有效手段,这一手段通常使用数据中的全部样本来度量属性的重要度从而进一步得到约简子集。但实际上,不同样本对于属性重要度计算的贡献是不同的,有些样本对重要度贡献不高甚至几乎没有贡献,且当数据中的样本数过大时,利用全部样本进行约简求解会使得时间消耗过大而难以接受。为了解决这一问题,提出了一种基于一致性样本的属性约简策略。具体算法大致由3个步骤组成,首先,将满足一致性原则的样本挑选出来;其次,将这些选中的样本组成新的决策系统;最后,利用启发式框架在新的决策系统中求解约简。实验结果表明:与基于聚类采样的属性约简算法相比,所提方法能够提供更高的分类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号