首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 60 毫秒
1.
许俊 《福建电脑》2006,(12):34-35
决策树是分类数据挖掘的重要方法。其中,经典ID3算法根据具有最大信息增益的属性对训练样本集进行分类,适用于离散型属性。C4.5算法延用了ID3算法的基本策略,增加了处理连续数值型属性的方法。本文在其基础上讨论了新的基于属性变换的离散化处理方法。该方法基于统计概率信息,依据概率属性的最佳分裂对应分裂连续属性,增加了决策树的分类精度。  相似文献   

2.
基于邻域粒化和遗传算法的数值型属性约简方法   总被引:1,自引:0,他引:1  
针对现实中含有数值型属性的决策系统的约简问题,提出了基于邻域粒化和遗传算法的约简方法。该方法采用基于邻域等价关系建立的粗糙集模型,用邻域等价关系度量粗糙集不可分辨关系,通过邻域信息粒子逼近论域空间。构造了遗传约简算法,论述了遗传算法适应度函数的选择,设计了自适应交叉概率,给出了算法的具体实现。对经典数据集和UCI数据库中4个数据库约简的结果证明了算法的有效性和可行性。  相似文献   

3.
处理连续属性离散化是决策树分类方法中C5.0算法在创建决策树时对数据表示空间的简化的一个重要问题,采用合理有效的连续属性离散化方法可以提高创建决策树的分类预测精度.在分析C5.0算法的离散化方法的不足之处后,提出一种改进Chi2算法的方法,能更合理更准确地对连续属性进行离散化,在此基础上创建的决策树具有更好的准确率.实验结果表明,基于改进方法的C5.0算法创建的决策树分类模型具有较高的分类准确率.  相似文献   

4.
徐枫 《信息与电脑》2011,(8):219-220
分类是数据挖掘的重要组成部分,分类可用于提取描述重要数据类的模型或预测未来的数据趋势,在众多的分类算法中决策树方法在可理解度和易使用等方面优于其他的分类方法。本文以高职院校学生信息与专业选择之间的关系分析为例,完整地给出了决策树分类ID3算法的理论基础和实践的全过程,实验结果表明了决策树分类ID3算法在学生信息分析中的有效性。  相似文献   

5.
针对现有决策树算法对连续性数据分类的信息丢失、效果不佳等缺点,提出一种邻域决策树(NDT)构造算法.首先,挖掘了邻域决策信息系统上的变精度邻域等价粒,并探讨了相关性质;然后基于变精度邻域等价粒构建邻域基尼指数度量,以度量邻域决策信息系统的不确定性;最后,用邻域基尼指数度量诱导出树节点的选取条件,并以变精度邻域等价粒为树...  相似文献   

6.
基于信息熵的二元分割算法离散连续属性,在对连续属性较多,数据量较大的数据集进行分析预测中,存在不足。实验表明,在决策树算法中结合改进后的k-means算法作为连续属性离散化算法,在连续属性较多的数据实例中可以构造出更好的决策树。  相似文献   

7.
基于粒计算的决策树并行算法的应用   总被引:1,自引:0,他引:1  
针对传统的决策树分类算法不能有效解决海量数据挖掘的问题,结合并行处理模型M apReduce ,研究基于粒计算的ID3决策树分类的并行化处理方法。基于信息粒的二进制表示来构建属性的二进制信息粒向量,给出数据集的二进制信息粒关联矩阵表示;基于二进制信息粒关联矩阵,提出属性的信息增益的计算方法,设计基于M apReduce的粒计算决策树并行分类算法。通过使用标准数据集和实际气象领域的雷电真实数据集进行测试,验证了该算法的有效性。  相似文献   

8.
决策树算法用于井漏分类时,由于井漏数据离散化后多值属性占比较大,且具有多值偏向的缺点,分类效果不理想。为此,提出一种基于改进ID3的AFIV-ID3算法。在ID3的基础上引入属性重要度计算新的信息熵,属性重要度大小由决策者依靠先验或领域知识决定。在信息增益计算中加入关联度函数比,对信息增益值做出修正。AFIV-ID3算法克服了ID3多值偏向的缺点,提高了数据中重要属性的权重,从而提升井漏类型分类精度。4组UCI数据集和真实井漏数据测试结果表明,该算法的分类精度优于ID3和C4. 5算法,并能够将人工经验法不稳定的分类精度提高至约72. 23%。  相似文献   

9.
基于粒子群优化和邻域约简的入侵检测日志数据特征选择   总被引:2,自引:0,他引:2  
入侵检测日志数据具有数据量大、特征数目繁多以及连续型属性多的特点.传统的特征选择方法在处理连续型数据时要先进行离散化,这需要花费大量的预处理时间并且离散化过程可能会丢失一些重要信息,导致分类精度下降.针对上述问题,首先引入能直接处理连续型数据的邻域粗糙集约简模型,在此基础上构造计算粒子群优化算法中粒子的适应度函数,最后给出一种基于邻域粗糙集模型和粒子群优化的特征选择算法.仿真实验结果表明该算法可以选择较少的特征,改善分类的能力.  相似文献   

10.
多数传统的属性聚类算法不能直接处理连续型属性,为了避免连续数据离散化处理时造成的信息损失,降低样本属性邻域求解的复杂度,提高特征基因提取的效率。文中提出一种将邻域互信息用于属性聚类的特征基因选择方法,用于在海量的基因表达谱数据中挖掘出少量的具有分类识别能力且冗余度较小的特征基因。  相似文献   

11.
阐述邻域粗糙集和邻域信息熵的基本定义及性质,为避免数值属性信息系统属性约简过程中,属性离散化造成特征信息的丢失,提出一种新的基于邻域信息熵度量数值属性约简算法。扩展邻域信息系统核属性集生成约简属性集,邻域信息熵度量不仅关注约简属性集正域变化,而且考察负域样本空间约简属性邻域等价类在决策属性划分的分布,具备更好的邻域关系度量细粒度。实验表明,对比邻域粗糙集近似度量、邻域有效信息率度量、邻域软间隔度量的属性约简方法,该算法能有效进行邻域信息系统属性约简的同时,也保持了约简属性集更好的分类精度。  相似文献   

12.
决策树算法的研究及优化   总被引:16,自引:3,他引:16  
决策树算法是数据挖掘中的一个比较活跃的研究领域,是对分类问题进行深入分析的一种方法,但构造最优决策树是一个NP困难问题。文中首先介绍了ID3算法的基本思想,然后讨论了决策树算法中的难点问题,针对ID3算法中所存在的不足,提出了一种利用优化法的思想来改进信息增益的算法,并且与ID3算法进行了实验对比。通过实验表明,这种方法从树的规模和分类精度都优于许多决策树算法,使决策效率明显提高。  相似文献   

13.
提出了一种利用数据库分组记数技术构造决策树的算法,利用数据库系统的结构化查询语言来实现主要的样本统计计算任务。并将构造决策树的过程与相关属性的选择方法有机地结合在一起。使用这些方法和策略,该算法能较快速地生成决策树,与ID3算法相比,在不影响决策树分类准确度的前提下,具有较高的执行效率。  相似文献   

14.
目前的决策粗糙集研究主要集中在完备离散型信息系统,很少有对不完备连续型数据进行研究,考虑这一问题,提出一种不完备邻域决策粗糙集模型。首先在不完备连续型数据中引入了不完备邻域关系,然后利用该二元关系对传统的决策粗糙集进行重构,一种称之为不完备邻域决策粗糙集的模型被提出,同时基于决策代价原则,进一步地提出了最小化决策代价的属性约简算法。最后通过实验表明了所提出的算法具有更高的属性约简性能。  相似文献   

15.
丁春荣  李龙澍 《微机发展》2007,17(11):110-113
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,分离属性的选择标准直接影响到分类的效果,传统的决策树算法往往是基于信息论度量的。基于粗糙集的理论提出了一种基于属性重要度和依赖度为属性选择标准的决策树规则提取算法。使用该算法,能提取出明确的分类规则,比传统的ID3算法结构简单,并且能提高分类效率。  相似文献   

16.
机器学习中的决策树算法具有重要的数据分类功能,但基于信息增益的ID3算法与基于基尼指数的CART算法的分类功效还值得提高.构造信息增益与基尼指数的自适应集成度量,设计有效的决策树算法,以提升ID3与C A RT两类基本算法的性能.分析信息增益信息表示与基尼指数代数表示的异质无关性,采用基于知识的加权线性组合来建立信息增...  相似文献   

17.
决策树算法是经典的分类挖掘算法之一,具有广泛的实际应用价值。经典的ID3决策树算法是内存驻留算法,只能处理小数据集,在面对海量数据集时显得无能为力。为此,对经典ID3决策树生成算法的可并行性进行了深入分析和研究,利用云计算的MapReduce编程技术,提出并实现面向海量数据的ID3决策树并行分类算法。实验结果表明该算法是有效可行的。  相似文献   

18.
基于MapReduce的决策树算法并行化   总被引:1,自引:0,他引:1  
陆秋  程小辉 《计算机应用》2012,32(9):2463-2465
针对传统决策树算法不能解决海量数据挖掘以及ID3算法的多值偏向问题,设计和实现了一种基于MapReduce架构的并行决策树分类算法。该算法采用属性相似度作为测试属性的选择标准来避免ID3算法的多值偏向问题,采用MapReduce模型来解决海量数据挖掘问题。在用普通PC搭建的Hadoop集群的实验结果表明:基于MapReduce的决策树算法可以处理大规模数据的分类问题,具有较好的可扩展性,在保证分类正确率的情况下能获得接近线性的加速比。  相似文献   

19.
三支决策基于代价敏感,通过引入延迟决策,在信息不完备的情况下,能够使分类更加合理。考虑具有混合属性特征的决策信息系统优化决策问题,在混合属性信息系统上定义了邻域关系,构建了基于邻域关系的决策粗糙集模型。在此基础上将其应用于痛风临床诊断决策问题,运用多次迭代学习的方法对痛风数据进行分类。与SVM(Support Vector Machine)、RF(Random Forest)、LR(Logistic Regression)分类算法进行对比,证明了该方法的优越性。根据分类结果发现因素之间的内在联系,获取分类规则,探究痛风与肝功、肾功、血脂、血糖的相关性,为痛风成因研究和诊断治疗提供知识支持和决策支持。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号