共查询到17条相似文献,搜索用时 187 毫秒
1.
《计算机应用与软件》2013,(8)
基于动态粗集理论,提出一种改进的动态粗集决策树算法。改进后的算法对每一属性计算数据对象迁移系数的和,值最大的属性成为决策树的根;在对决策树分叉时,给每一决策类别的数据对象集合计算从根到分叉属性所构成的属性集的膨胀度,值大的属性构成分支结点。算法在UCI机器学习数据库原始数据集及其噪音数据集上的实验结果表明,该算法构造的决策树在规模与分类准确率上均优于ID3算法及C4.5算法。 相似文献
2.
3.
基于粗集的决策树构建的探讨 总被引:1,自引:0,他引:1
决策树是对未知数据进行分类预测的一种方法。自顶向下的决策树生成算法关键是对结点属性值的选择。近似精度是RS中描述信息系统模糊程度的参量,能够准确地刻画粗集。文中在典型的ID3算法的基础上提出了基于RS的算法。该算法基于近似精度大的属性选择根结点,分支由分类产生。该算法计算简单,且分类使决策树和粗集更易理解。 相似文献
4.
5.
杨宝华 《计算机技术与发展》2006,16(8):83-85
决策树是对未知数据进行分类预测的一种方法。自顶向下的决策树生成算法关键是对结点属性值的选择。近似精度是RS中描述信息系统模糊程度的参量,能够准确地刻画粗集。文中在典型的ID3算法的基础上提出了基于RS的算法。该算法基于近似精度大的属性选择根结点,分支由分类产生。该算法计算简单,且分类使决策树和粗集更易理解。 相似文献
6.
单变量决策树算法造成树的规模庞大、规则复杂、不易理解,而多变量决策树是一种有效用于分类的数据挖掘方法,构造的关键是根据属性之间的相关性选择合适的属性组合构成一个新的属性作为节点。结合粗糙集原理中的知识依赖性度量和信息系统中条件属性集的离散度概念,提出了一种多变量决策树的构造算法(RD)。在UCI上部分数据集的实验结果表明,提出的多变量决策树算法的分类效果与传统的ID3算法以及基于核方法的多变量决策树的分类效果相比,有一定的提高。 相似文献
7.
基于决策分类熵的决策树构造算法及应用 总被引:1,自引:0,他引:1
为了更好地完成金融数据集上的分类挖掘任务,以粗糙集理论为基础提出决策分类熵的概念,进而以属性的决策分类熵为属性分裂度量提出基于决策分类熵的决策树构造算法,并针对过拟合问题提出一种抑制参数来实现树规模的良好控制。实例分析及金融数据集上的实验表明:相比经典的C4.5决策树算法,新算法能够较好地克服其缺点和不足,构建更优的决策树,能够更好地完成分类任务。 相似文献
8.
基于粒计算的决策树并行算法的应用 总被引:1,自引:0,他引:1
针对传统的决策树分类算法不能有效解决海量数据挖掘的问题,结合并行处理模型M apReduce ,研究基于粒计算的ID3决策树分类的并行化处理方法。基于信息粒的二进制表示来构建属性的二进制信息粒向量,给出数据集的二进制信息粒关联矩阵表示;基于二进制信息粒关联矩阵,提出属性的信息增益的计算方法,设计基于M apReduce的粒计算决策树并行分类算法。通过使用标准数据集和实际气象领域的雷电真实数据集进行测试,验证了该算法的有效性。 相似文献
9.
噪音数据是影响决策树训练效率和结果集质量的重要因素。目前的树剪枝方法不能消除噪音数据对选择决策树测试节点属性的影响。为改变这种状况,基于变精度Rough集(VPRS)模型,提出了一个在决策树算法中处理噪音数据的新方法---预剪枝法,该方法在进行选择属性的计算之前基于变精度正区域求取属性修正的分类模式,来消除噪音数据的对选择属性以及生成叶节点的影响。利用该方法对基本ID3决策树算法进行了改进。分析和实验表明,与先剪枝方法相比,该方法能进一步减小决策树的规模和训练时间。 相似文献
10.
决策树是常用的数据挖掘方法,扩展属性的选择是决策树归纳的核心问题。基于离散化方法的连续值决策
树归纳在选择扩展属性时,需要度量每一个条件属性的每一个割点的分类不确定性,并通过这些割点的不确定性选择
扩展属性,其计算时间复杂度高。针对这一问题,提出了一种基于相容粗糙集技术的连续值属性决策树归纳方法。该
方法首先利用相容粗糙集技术选择扩展属性,然后找出该属性的最优割点,分割样例集并递归地构建决策树。从理论
上分析了该算法的计算时间复杂度,并在多个数据集上进行了实验。实验结果及对实验结果的统计分析均表明,提出
的方法在计算复杂度和分类精度方面均优于其他相关方法。 相似文献
11.
采用粗糙集理论中的属性重要度作为挑选测试属性的指标来构造决策树,形成了一种新的决策树分类算法S_D_Tree,在计算挑选测试属性的时间复杂度为O(|C||n|)。实验结果表明,该算法可以构建一个较简洁的决策树,与C4.5算法相比较,具有更好的预测准确率。 相似文献
12.
C4.5算法是一种非常有影响力的决策树生成算法,但该方法生成的决策树分类精度不高,分支较多,规模较大.针对C4.5算法存在的上述问题,本文提出了一种基于粗糙集理论与CAIM准则的C4.5改进算法.该算法采用基于CAIM准则的离散化方法对连续属性进行处理,使离散化过程中的信息丢失程度降低,提高分类精度.对离散化后的样本用基于粗糙集理论的属性约简方法进行属性约简,剔除冗余属性,减小生成的决策树规模.通过实验验证,该算法可以有效提高C4.5算法生成的决策树分类精度,降低决策树的规模. 相似文献
13.
基于知识的模型自动选择策略 总被引:1,自引:0,他引:1
模型自动选择是决策支持系统智能化发展的必然要求。针对目前实用算法较少的现状,提出一种模型自动选择策略。基于知识框架描述模型,根据事实库和知识库提取相应规则生成推理树,结合经验和专业知识实现模型自动选择。实验结果表明,该策略具有较高的命中率。 相似文献
14.
15.
分类规则的精度取决于分类算法的构造,论文在综合分析基本粗糙集合概念及其约简算法的基础上,阐述了一种基于准则的有序属性决策系统的数据挖掘算法.为此首先介绍了基于有序属性决策系统的集合表达,然后利用有序属性决策系统中准则集与属性集的基本特征构造上下近似扩展模型,得到准则集决策系统的四个相关参数.并进一步提出相应的数据约简与分类规则提取算法。最后给出了用此算法约简有序属性决策系统的算例,实验结果表明此方法挖掘出的规则简练,更具合理性和可靠性。 相似文献
16.
17.
针对决策树算法在分类时的多值偏向问题,提出了一种合理的基于相关系数的MID3算法的改进算法。该算法在生成决策树的过程中,将属性与分类结果之间的相关关系引入决策树节点的属性选择中,从而在一定程度上解决ID3算法的多值倾向问题,同时考虑系统两层节点从全局上优化树的结构。利用UCI数据集样本进行实验,将本文算法与ID3算法进行对比,得到了算法的效率的比较结果。实验结论表明,算法提高了数据的平均分类准确率,生成的决策树结构更加合理。 相似文献