首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于Cramer’s V的连续属性离散化算法   总被引:1,自引:0,他引:1       下载免费PDF全文
郭启铭  樊玮 《计算机工程》2008,34(4):111-112
在类-属性相关离散化方法的基础上,提出一种基于Cramer’s V的连续属性离散化算法CVM,该方法利用统计学中的Cramer’s V来量化类-属性相关度,以保证离散后的类-属性相关度最大。与CADD和CAIM算法的实验比较以及对离散化后的数据进行C4.5分类测试,表明CVM算法性能良好,其离散化的数据明显地提高了分类器的预测精度。  相似文献   

2.
.连续属性离散化算法比较研究*   总被引:2,自引:0,他引:2  
探讨了贪心及其改进算法、基于属性重要性、基于信息熵和基于聚类四类连续属性离散化算法,并通过实验验证这四类算法的离散化效果.实验结果表明,数据集离散化的效果不仅取决于使用算法,而且与数据集连续属性的分布和决策数据值的分类也有密切关系.  相似文献   

3.
介绍了一种基于统计分析的数据离散化方法——谱系聚类法,以胶合板缺陷检测数据为应用对象进行了基于谱系聚类的数据离散化研究,并与其它离散化方法进行了对比分析,对比结果表明经谱系聚类方法离散化后的数据,再进行粗糙集约简时,会有更多的冗余属性和记录被约掉,从而可以降低模型的复杂程度,加快获取知识的进程,提高分类的准确率。工程实践证明谱系聚类是一种有效的可用于数据预处理的离散化方法,结合粗糙集算法可以获取满意的数据挖掘结果。  相似文献   

4.
将粗糙集理论中属性重要度和依赖度的概念与分级聚类离散化算法相结合,提出了一种纳税人连续型属性动态的离散化算法。首先将纳税数据对象的每个连续型属性划分为2类,然后利用粗糙集理论计算每个条件属性对于决策属性的重要度,再通过重要度由大至小排序进行增类运算,最后将保持与原有数据对象集依赖度一致的分类结果输出。该算法能够动态地对数据对象进行类别划分,实现纳税人连续型属性的离散化。通过采用专家分析和关联分析的实验结果,验证了该算法具有较高的纳税人连续型属性离散化精度和性能。  相似文献   

5.
李晓飞 《计算机应用与软件》2009,26(10):262-264,272
连续属性离散化问题是机器学习的重要方面,是数据预处理问题之一.提供的基于动态层次聚类的离散化算法是层次聚类算法的一种改进.对该算法进行定性分析-对随机采集数据根据相似度进行聚类分析,得到论域的一种划分.通过实验表明,基于动态层次聚类的离散化算法对连续属性的划分更加合理,更加有效.  相似文献   

6.
传统的基于区分矩阵的属性约简算法只能处理离散数据,而绝大部分数据既包含离散属性又包含连续属性.针对这一问题,本文使用一种可以对离散数据和连续数据进行统一处理的方法.该方法利用柔性逻辑等价关系替代原来的不可分辨关系,简化了传统算法中的离散化过程,提高了算法效率.实验表明,与传统的算法相比,改进后算法省略了离散化这一过程,可以对离散数据和连续数据统一进行处理.  相似文献   

7.
数据属性离散化是作战仿真数据预处理的重要组成部分,也是作战仿真数据研究的重点和难点.论述了进行数据属性离散化的必要性,提出一种基于改进属性重要度和信息熵(Discretization by Improved Attribute Significance and Information Entropy,DIAFIE)的作战仿真数据属性离散化算法.算法定义了属性重要度并以此为聚类判断依据将数据值域划分为多个离散区间,然后根据信息熵优化合并相邻区间以保证离散化结果的精度.实验证明上述算法能有效处理作战仿真数据属性离散化问题,具有产生断点少、分类精度高的优点.  相似文献   

8.
提出了一种基于最佳分类数和粗糙集理论的汽轮机轴系振动故障诊断方法。该方法利用模糊C均值聚类算法(FCM)把数据的连续属性离散化,以形成隶属度矩阵及属性分类数,根据隶属度矩阵及属性分类数进行划分系数和划分熵的有效性评判,最终找到连续属性的最佳分类数。然后根据最佳分类数对数据的连续属性进行实际的离散化,将离散化后形成的离散数据根据粗糙集理论,进行数据挖掘,得到诊断规则,有效提高了汽轮机轴系振动故障的诊断水平。  相似文献   

9.
连续属性离散化是机器学习和数据挖掘领域中的一个重要问题,离散化是否合理决定着表达和提取相关信息的准确性。经过研究Chi2系列算法,提出一种新的基于属性重要性的连续属性离散化方法——Imp-Chi2算法,该算法依据属性重要性程度对属性离散化的顺序进行了合理的调整,能够更准确地对连续属性进行离散化。文章通过C4.5和支持向量机分别对离散化后的结果进行了实验,在实验过程中,提出一种训练集类比例抽取方法,避免了训练集随机抽取的不均匀性。实验结果证明了所提算法的有效性。  相似文献   

10.
胡运禄  于津 《福建电脑》2013,29(3):118-121
连续型属性的离散化是数据挖掘研究中一个重要的组成部分,连续属性离散化方法的性能对数据挖掘结果会产生直接的影响。本文将基于目标函数的模糊聚类算法-FCM引入到连续属性离散化中,在对FCM算法中的模糊聚类数目a和初始聚类中心位置进行优化的基础上,提出了改进的NFCM算法,根据需要离散化的数据分布特点来进行离散化,减少了模糊聚类算法的迭代次数,提高了连续属性离散化的效率。  相似文献   

11.
一种改进的CAIM算法   总被引:1,自引:0,他引:1       下载免费PDF全文
在CAIM算法中,离散判别式仅考虑了区间中最多的类与属性间的依赖度,使离散化过度而导致结果不精确。基于此,提出对CAIM的改进算法,该算法考虑到按属性重要性从小到大顺序进行离散,同时根据粗糙集理论提出条件属性可分辨率概念,与近似精度同时控制信息表最终的离散程度,有效解决了离散化过度问题。实验通过C4.5和支持向量机分别对离散化后的数据进行识别和分类预测,结果证明了该算法的有效性。  相似文献   

12.
为了让规则抽取算法能更好地适用于连续属性领域的问题,文章提出了一种有导师的连续属性离散化算法SHD,并将该算法扩展到多连续属性处理领域,在此基础上,文章对该算法的数据预处理过程进行了探讨,提出了一种基于类间离散离矩阵分析属性空间重构造算法,并将其应用到属性预处理过程中,算法测试证明,对于连续属性领域的问题,使用SHD属性离散化算法将明显改进后继规则抽取算法的效果。  相似文献   

13.
连续属性离散化是Rough集理论应用中面临的主要问题之一.提出了一种基于的Rough集连续属性离散化方法.首先提出主泛化决策等概念,在数据过滤方法的基础上,利用等价类的合并对属性离散化.实验表明,利用该方法对数据进行离散预处理后提取的规则具有较好的分类预测准确性.  相似文献   

14.
连续属性离散化算法SHD及其改进   总被引:2,自引:0,他引:2  
为了让规则抽取算法能更好地适用于连续属性领域的问题,文章提出了一种有导师的连续属性离散化算法SHD,并将该算法扩展到多连续属性处理领域。在此基础上,文章对该算法的数据预处理过程进行了探讨,提出了一种基于类间离散度矩阵分析属性空间重构造算法,并将其应用到属性预处理过程中。算法测试证明,对于连续属性领域的问题,使用SHD属性离散化算法将明显改进后继规则抽取算法的效果。  相似文献   

15.
一种基于层次聚类的属性全局离散化算法   总被引:1,自引:0,他引:1  
本文摒弃了以往利用断点集来进行离散化的算法思想,提出了一种新的基于粗糙集和分裂的层次聚类的全局离散化算法.本算法在层次聚类的基础上考虑不同连续属性离散化结果间的互补性和相关性,在不改变原信息系统不可分辨关系的前提下通过增类减类进行全局离散化.实验表明该算法具备了删除不必要属性的能力,提高了离散化的精度,更便于属性约简.  相似文献   

16.
连续属性离散化在数据分析的数据预处理中非常重要。本文提出一种基于类信息熵的有监督连续属性离散化方法。该方法运用了粗集理论中决策表的一致性水平的概念。算法分成两部分:首先根据决策表的一致性水平动态调整聚类类别数目,运用分级聚类形成初始聚类。然后,基于类信息熵合并相邻区域,减少区间数目。实践证明该方法是可行的。  相似文献   

17.
徐盈盈  钟才明 《计算机应用》2014,34(8):2184-2187
模式识别与机器学习的一些算法只能处理离散属性值,而在现实生活中的很多数据具有连续的属性值,针对数据离散化的问题提出了一种无监督的方法。首先,使用K-means方法将数据集进行划分得到类别信息;然后,应用有监督的离散化方法对划分后的数据离散化,重复上述过程以得到多个离散化的结果,再将这些结果进行集成;最后,将集成得到的最小子区间进行合并,这里根据数据间的邻居关系选择优先合并的维度及相邻区间。其中,通过数据间的近邻关系自动寻求子区间数目,尽可能保持其内在结构关系不变。将离散后的数据应用于聚类算法,如谱聚类算法,并对聚类后的效果进行评价。实验结果表明,该算法聚类精确度比其他4种方法平均提高约33%,表明了该算法的可行性和有效性。通过该算法得到的离散化数据可应用于一些数据挖掘算法,如ID3决策树算法。  相似文献   

18.
一种基于概念相似度的数据分类方法   总被引:7,自引:0,他引:7  
依据数据属性间的相似信息,提出了一种分类方法.该方法将属性矢量化,属性作为m维空间的基本矢量,数据记录作为属性矢量的和.利用属性间先验的概念相似信息,给出了求取任意属性矢量对的相似距离算法,并将数据间相关度计算转换为属性矢量及其相互投影的公式,从而得到任意两条数据的相关度;利用相关度,提出了一种分类算法.用详实的实验证明了该算法的有效性.  相似文献   

19.
基于相关的属性选择算法是一种属性子集评价方法,该算法通过启发式评价消除属性子集中属性之间的相关性,使用评价值选择与类属性相关度高而属性之间相关度低的属性子集。提出在基于相关的属性选择算法中加入属性之间相关度方差的影响,能够在基于相关的属性选择算法选择的属性集子的基础上,去除属性子集中那些与其他属性相关度大的属性。通过实验证明,改进后的算法选择的属性子集属性数不多于基于相关的属性选择算法选择的属性子集属性数。使用改进算法选择的属性子集,在对分类器分类正确率影响很小的情况下,有较高的分类效率。  相似文献   

20.
连续属性离散化方法能够提高数据挖掘和归纳学习等算法的分类预测能力.提出一种统计独立性的离散化新方法,该方法改进了基于卡方统计的区间合并函数,不仅考虑了各对合并区间中卡方自由度对离散化结果的影响,而且考虑了数据类分布的影响,很好地衡量了类-属性之间的相互独立性.实验结果表明,新方法显著地提高了Nave-bayes和SVM分类器的学习精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号