首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 328 毫秒
1.
决策树算法是数据挖掘中重要的分类算法。目前,已有许多构建决策树的算法,其中,ID3算法是核心算法。本文首先对ID3算法进行研究与分析,针对计算属性的信息熵十分复杂的缺点,提出了一种新的启发式算法SID3,它是基于属性对分类的敏感度的。文章最后通过实例对两种算法进行比较分析,结果表明,SID3算法能够生成正确的决策树,并且使建树过程更简便,更快速。  相似文献   

2.
王蓉  刘遵仁  纪俊 《计算机科学》2017,44(Z11):129-132
传统的ID3决策树算法存在属性选择困难、分类效率不高、抗噪性能不强、难以适应大规模数据集等问题。针对该情况,提出一种基于属性重要度及变精度粗糙集的决策树算法,在去除噪声数据的同时保证了决策树的规模不会太庞大。利用多个UCI标准数据集对该算法进行了验证,实验结果表明该算法在所得决策树的规模和分类精度上均优于ID3算法。  相似文献   

3.
数据挖掘中决策树分类算法的研究与改进   总被引:4,自引:0,他引:4  
决策树分类算法是数据挖掘中一个重要的内容,而ID3算法又是决策树分类算法中的一种重要方法且被广泛应用。然而在实际应用过程中,现存的决策树算法也存在着很多不足之处,如计算效率低下、多值偏向等。为了解决这些问题,提出了一种基于ID3算法的加权简化信息熵算法,它提高了决策树的构建速度,减少了算法的计算运行时间,同时也克服了ID3算法往往偏向于选择取值较多的属性作为测试属性的缺陷。并且随着数据规模的增大,决策树的分类性能表现得越好。  相似文献   

4.
ID3是决策树学习的核心算法,为此详细叙述了决策树表示方法和ID3决策树学习算法,特别说明了决策属性的选取法则.通过一个学习实例给出该算法第一次选取决策属性的详细过程,并且对该算法进行了讨论.一般情况下,ID3算法可以找出最优决策树.  相似文献   

5.
增量决策树算法研究   总被引:2,自引:1,他引:2  
文中主要解决传统的ID3算法不能处理增量数据集构造决策树的问题。在传统ID3决策树算法和原有增量算法的基础上,利用信息论中熵变原理的特点,对与增量决策树算法相关的三个定理进行相应的改进,在理论上证明了改进的增量决策树算法的有效性和可靠性。同时对增量决策树算法和ID3算法的复杂度进行了对比分析,得出增量决策树算法的实例费用和信息熵费用都高于ID3算法的结论。最后通过一个实验证明,改进的增量决策树算法能够构造出与ID3算法形态基本相同的决策树。  相似文献   

6.
文中主要解决传统的ID3算法不能处理增量数据集构造决策树的问题.在传统ID3决策树算法和原有增量算法的基础上,利用信息论中熵变原理的特点,对与增量决策树算法相关的三个定理进行相应的改进,在理论上证明了改进的增量决策树算法的有效性和可靠性.同时对增量决策树算法和ID3算法的复杂度进行了对比分析,得出增量决策树算法的实例费用和信息熵费用都高于ID3算法的结论.最后通过一个实验证明,改进的增量决策树算法能够构造出与ID3算法形态基本相同的决策树.  相似文献   

7.
决策树学习算法ID3的研究   总被引:28,自引:0,他引:28  
ID3是决策树学习的核心算法,为此详细叙述了决策树表示方法和ID3决策树学习算法,特别说明了决策属性的选取法则。通过一个学习实例给出该算法第一选取决策属性的详细过程,并且对该算法进行了讨论,一般情况下,ID3算法可以找出最优决策树。  相似文献   

8.
基于修正系数的决策树分类算法   总被引:2,自引:1,他引:1  
ID3算法是决策树算法中的经典算法,但存在多值偏向问题.一些改进的ID3算法虽避免了多值偏向问题,但多存在主观性强,没有考虑属性信息熵等问题.为了解决该问题,提出了一种基于修正系数的决策树分类算法MC.该算法利用修正系数降低取值个数多的属性的信息增益,并通过实验与ID3算法进行了比较,结果表明,当样本集中各属性取值个数不同时,算法MC在生成决策树的结点总数和分类准确率上明显优于ID3算法.  相似文献   

9.
基于属性值的ID3算法改进   总被引:6,自引:1,他引:5  
ID3算法是数据挖掘中经典的决策树分类算法.针对ID3算法所存在的属性取值偏向问题及只时较小的数据集有效的缺点提出改进.当训练样本各属性的取值个数相差较大的情况下,在计算划分标准时引入了属性取值个数N,在一定程度上克服了ID3算法易偏向于取值较多的属性这一缺陷,得到了结构更简洁的、较为理想的决策树.采用先剪枝的方法实现改进,设定一个阈值避免决策树的完全生长,在保持分类准确率的同时,大大地提高了算法的速度.实验结果表明,改进后的算法(AVID3)对许多数据集比传统ID3算法更有效.  相似文献   

10.
决策树算法是经典的分类挖掘算法之一,具有广泛的实际应用价值。经典的ID3决策树算法是内存驻留算法,只能处理小数据集,在面对海量数据集时显得无能为力。为此,对经典ID3决策树生成算法的可并行性进行了深入分析和研究,利用云计算的MapReduce编程技术,提出并实现面向海量数据的ID3决策树并行分类算法。实验结果表明该算法是有效可行的。  相似文献   

11.
在数据挖掘中,分期是一个很重要的问题,有很多流行的分类器可以创建决策树木产生类模型。本文介绍了通过信息增益或熵的比较来构造一棵决策树的数桩挖掘算法思想,给出了用粗糙集理论构造决策树的一种方法,并用曲面造型方面的实例说明了决策树的生成过程。通过与ID3方法的比较,该种方法可以降低决策树的复杂性,优化决策树的结构,能挖掘较好的规则信息。  相似文献   

12.
一种基于模糊熵的模糊分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
在模糊ID3算法中,用模糊分类熵选择扩展属性,以自顶向下的方式递归地构建模糊决策树,对数据进行分类。提出了一种基于属性模糊熵的模糊分类算法,不同于模糊ID3算法,模糊条件属性的模糊熵作为权值用来对相对模糊频率进行加权,综合考虑各个模糊条件属性对分类的贡献。实例分析和实验结果表明了这一算法的有效性。  相似文献   

13.
熵在决策树构建中的应用   总被引:1,自引:0,他引:1  
决策树是对未知数据进行分类预测的一种方法。本文阐述熵理论和典型的ID3算法,并举例构建决策树。讨论选择具有最高信息增益的属性构建决策树,即选定具有最高区分度的属性作为当前节点。利用熵理论构建决策树,方法简单,结构清晰,容易转换成分类规则,并且不需要先验领域知识。  相似文献   

14.
汪辉  侯传宇 《数字社区&智能家居》2011,(15):3572-3574,3581
ID3算法和C4.5算法是经典的决策树算法,通过对ID3算法和C4.5算法的数据结构、算法描述和分裂属性选取等方面进行比较,为其他研究者提供参考.  相似文献   

15.
叙述了客户流失的基本概念 ,分析了客户流失危机产生的原因 ,指出了传统的客户流失危机分析方法存在的问题 ,提出了一种基于决策树的客户流失危机分析方法。详细地描述了ID3算法 ,提出一种加权熵的概念 ,并对ID3算法进行改进 ;给出了一个基于决策树的客户流失危机的分析实验 ,并对实验结果进行讨论 ,将改进的ID3算法与其它决策树算法进行了分析和比较 ,以验证该算法在客户流失危机分析中的有效性  相似文献   

16.
基于属性间交互信息的ID3算法   总被引:3,自引:0,他引:3  
启发式算法是决策树研究的核心。文中分析了最常见的一种决策树归纳启发式算法即ID3算法的不足,给出了一个改进版本,它在选择测试属性时不仅要求该属性带来的信息增益尽可能大,而且要求其与同一分支上已经使用过的各属性之间的交互信息尽可能小,从而避免了对冗余属性的选择,实现信息熵的真正减少。分析及实验结果表明,与ID3算法相比,该算法能构造出更优的决策树。  相似文献   

17.
决策树分类算法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
张琳  陈燕  李桃迎  牟向伟 《计算机工程》2011,37(13):66-67,70
ID3算法在选择分裂属性时偏向于选取属性取值较多的属性。针对该问题,引入属性重要性和属性取值数量2个参数对ID3算法的信息增益公式进行改进,从而提高取值数量少但较为关键的属性的重要性,使算法更好地反映实际决策情况,并根据凸函数的性质简化信息熵的计算,提高决策树的构造效率。通过实例介绍改进算法的具体应用方法,证明其性能相比原算法有所提高。  相似文献   

18.
介绍了国内银行信用卡业务和特约商户发展的现状,对实施银行信用卡特约商户分析的必要性进行了讨论,介绍了ID3决策树算法的主要内容,讨论了数据预处理过程,并对属性进行了概念分层的离散化处理,详细阐述了基于信息增益的决策树构建过程,最后讨论了分析结果和利用特约商户分析来增强客户关系管理的效果。研究结果表明,信用卡特约商户分析能帮助金融机构改善信用卡业务效益。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号