首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
一种基于灰色关联度的决策树改进算法   总被引:1,自引:0,他引:1       下载免费PDF全文
在构造决策树的过程中,分裂属性选择的标准直接影响分类的效果。分析了现有改进的ID3算法不同程度地存在学习效率偏低和对多值属性重要性的主观评测等问题,提出一种高效而且可靠的基于灰色关联度的决策树改进算法。该算法通过灰色关联分析建立各特征属性与类别属性之间的关系,进而利用灰色关联度来修正取值较多但非重要属性的信息增益。通过实验与其它ID3改进算法进行了比较,验证了改进后的算法是有效的。  相似文献   

2.
一种健壮有效的决策树改进模型   总被引:3,自引:0,他引:3  
论文提出了一种健壮有效的决策树改进模型R-C4.5及其简化版本。该决策树模型基于著名的C4.5决策树模型,但在属性的选取和分枝策略上进行了改进。对每一个属性计算对应样本子集的熵和样本子集熵的平均值,并将样本子集熵的值不小于平均值的样本子集进行合并,形成一个临时的复合样本子集,即合并分类效果较差的分枝。利用临时复合样本子集的熵值和未合并样本子集的熵值计算该结点的修正信息增益,并选择具有最高修正信息增益的属性作为当前结点的测试属性。其分枝对应于未合并样本子集和复合样本子集。该模型的简化版本在数据预处理阶段完成。R-C4.5决策树模型在提高测试属性选择度量的可解释性、减少空枝和无意义分枝,及过度拟合等方面有了显著的提高。  相似文献   

3.
决策树算法的一种改进算法   总被引:2,自引:0,他引:2  
决策树是归纳学习和数据挖掘的重要方法,主要用于分类和预测.ID3算法是决策树中应用最广泛的算法,通过对数据挖掘中决策树的基本思想进行阐述,讨论了ID3算法倾向于取值较多属性的缺点,引入无关度对ID3算法作了改进.实验数据结果分析表明,改进后的算法能得到更合理、更有效的规则.  相似文献   

4.
决策树算法是数据挖掘中重要的分类算法。目前,已有许多构建决策树的算法,其中,ID3算法是核心算法。本文首先对ID3算法进行研究与分析,针对计算属性的信息熵十分复杂的缺点,提出了一种新的启发式算法SID3,它是基于属性对分类的敏感度的。文章最后通过实例对两种算法进行比较分析,结果表明,SID3算法能够生成正确的决策树,并且使建树过程更简便,更快速。  相似文献   

5.
针对数据集中无关的、干扰的属性会降低决策树算法性能的问题,提出了一个新的决策树算法,此算法根据对测试属性进行约简选择,提出以测试属性和决策属性的相似性作为决策树的启发规则来构建决策树,同时使用了分类阈值设定方法简化决策树的生成过程。实验证明,该算法运行效率和预测精度都优于传统的ID3算法。  相似文献   

6.
ID3算法作为数据挖掘分类技术中的核心算法,有着构造简单、学习能力强、分类速度快等优点。但由于其沿用的是机器学习算法,处理的数据集规模小且与数据库集成性较差,影响了其实用性。在继承原有算法思路的基础上,对其核心部分进行了改进,通过使用嵌入式SQL,直接对目标数据库进行查询操作并处理,最终得到分类决策表并保存于数据库。实验证明,改进的ID3算法结合了SQL的高效性和C语言的灵活性,高效无缝地实现了大量数据的分类且大大提高了算法的执行效率。  相似文献   

7.
决策树算法是数据挖掘中非常活跃的研究领域。通过对数据挖掘中决策树的基本思想进行阐述,讨论了决策树经典算法(ID3算法)的计算复杂度问题,并针对这一问题提出了利用统计理论知识和条件概率的思想来改进构造决策树的算法。实验表明,这种构造决策树算法的计算复杂度明显优于传统的算法,其效率也有很大的提高。  相似文献   

8.
郭娜  田亚菲  郝洁  贾存丽 《软件》2010,31(11):8-11
决策树是数据挖掘和归纳学习的重要方法。本文介绍了ID3算法,ID3算法存在着倾向于取值较多属性的缺点;神经网络也可以用来分类,但是神经网络不易于分类规则的提取。在遗传算法优化的DRNN网络的基础上,提出了使用差量法构建决策树的方法。该方法既具有神经网络分类的高精度,而且分类规则比较直观。实验数据分析表明,本文提出的方法更加接近实际情况,能够更好的进行预测和分类。  相似文献   

9.
张翼宇 《福建电脑》2008,24(5):66-67
在用ID3算法构造的决策树过程中会出现的过度数据拟合现象,针对这个问题,目前在修剪类算法方面主要以规则修剪算法为主,本文在该算法的基础上提出了一种基于遗传算法的训练样例修剪算法。实验证明,用该方法对决策树进行的修剪无论是从程序的时空复杂度还是本身的计算效率上都有明显的提高。  相似文献   

10.
针对数据集中无关的、干扰的属性会降低决策树算法性能的问题,提出了一个新的决策树算法,此算法根据对测试属性进行约简选择,提出以测试属性和决策属性的相似性作为决策树的启发规则来构建决策树,同时使用了分类阈值设定方法简化决策树的生成过程.实验证明,该算法运行效率和预测精度都优于传统的ID3算法.  相似文献   

11.
高效性和可扩展性是多关系数据挖掘中最重要的问题,而提高算法效率的主要瓶颈在于假设空间,且用户对分类的指导会在很大程度上帮助系统完成分类任务,减少系统独自摸索的时间。针对以上问题提出了改进的多关系决策树算法,即将虚拟连接元组传播技术和提出的背景属性传递技术应用到多关系决策树算法中。对改进的多关系决策树算法进行了理论证明,并且对多关系决策树算法和改进的多关系决策树算法进行比较实验。通过实验可以得出,当改进的多关系决策树在搜索数据项达到背景属性传递阈值时,改进的多关系决策树算法的效率相对很高且受属性个数增加(或  相似文献   

12.
对ID3算法的基本原理及其主要不足以及现有几种改进算法的优缺点进行了简要分析,针对ID3算法的主要不足即倾向于多值属性的选取,利用粗糙集理论和数学相关知识点对其进行了一定程度的改进。理论分析和实验结果表明,改进后的算法在一定程度上不仅较好地解决了ID3算法的多值偏向问题而且大大简化了算法的计算过程,明显提高了算法分类准确度和执行效率。  相似文献   

13.
基于MapReduce的决策树算法并行化   总被引:1,自引:0,他引:1  
陆秋  程小辉 《计算机应用》2012,32(9):2463-2465
针对传统决策树算法不能解决海量数据挖掘以及ID3算法的多值偏向问题,设计和实现了一种基于MapReduce架构的并行决策树分类算法。该算法采用属性相似度作为测试属性的选择标准来避免ID3算法的多值偏向问题,采用MapReduce模型来解决海量数据挖掘问题。在用普通PC搭建的Hadoop集群的实验结果表明:基于MapReduce的决策树算法可以处理大规模数据的分类问题,具有较好的可扩展性,在保证分类正确率的情况下能获得接近线性的加速比。  相似文献   

14.
基于关联度函数的决策树分类算法   总被引:10,自引:0,他引:10  
韩松来  张辉  周华平 《计算机应用》2005,25(11):2655-2657
为了克服决策树算法中普遍存在的多值偏向问题,提出了一种新的基于关联度函数的决策树算法--AF算法,并从理论上分析了它克服多值偏向的原理。通过实验发现,与ID3算法比较,AF算法不仅克服了多值偏向问题,而且保持了较高的分类正确率。  相似文献   

15.
新的决策树构造方法   总被引:2,自引:1,他引:2       下载免费PDF全文
决策树算法是数据挖掘中的一个比较活跃的研究领域,是对分类问题进行深入分析的一种方法。但构造最优决策树是一个NP难问题。首先介绍了ID3算法的基本思想,然后针对算法中存在的不足,引入了广义相关函数的概念,提出了一种以条件属性和决策属性之间的广义相关函数作为属性选择标准的决策树构造方法,并且与ID3算法进行了实验比较。实验表明,这种方法不但可以优化决策树模型,而且用该方法构造的决策树的预测精度也得到明显改善。  相似文献   

16.
基于属性值的ID3算法改进   总被引:6,自引:1,他引:5  
ID3算法是数据挖掘中经典的决策树分类算法.针对ID3算法所存在的属性取值偏向问题及只时较小的数据集有效的缺点提出改进.当训练样本各属性的取值个数相差较大的情况下,在计算划分标准时引入了属性取值个数N,在一定程度上克服了ID3算法易偏向于取值较多的属性这一缺陷,得到了结构更简洁的、较为理想的决策树.采用先剪枝的方法实现改进,设定一个阈值避免决策树的完全生长,在保持分类准确率的同时,大大地提高了算法的速度.实验结果表明,改进后的算法(AVID3)对许多数据集比传统ID3算法更有效.  相似文献   

17.
经典ID3决策树算法适用于离散型数据分类,但用于连续处理时需要数据离散化容易导致信息损失。提出邻域等价关系从而诱导邻域ID3(NID3)决策树算法,NID3算法改进了ID3决策树算法,能够直接实施连续预测并获取更好的分类效果。在邻域决策系统中,挖掘一种邻域等价关系;基于邻域等价粒化,构建邻域信息度量;基于邻域信息增益,设计NID3决策树算法。实例分析与数据实验均表明,NID3算法具有连续数据分类预测有效性,在分类机器学习中优于ID3算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号