首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
Iterative Dichotomiser version3(ID3)算法是数据挖掘中经典的决策树分类算法,其核心是分裂训练集属性的选择标准,即分裂前后的信息增益量最大,用该标准选择属性时对于取值较多的属性具有较强依赖性。剖析了ID3算法存在的不足并加以改进,引入了属性关注度,提出了改进算法AAID3算法。实验表明改进算法对原ID3算法的取值偏向问题有所克服并使分类更加准确,决策树更加简明。  相似文献   

2.
ID3决策树算法是构造决策树的重要算法之一,然而实验表明该算法在选择分裂属性时存在着多值偏向问题。以往的大多数学者都是基于实验分析多值偏向问题。该文针对这个问题,基于粗糙集理论及凹函数性质,引入函数重要度概念,从理论上分析多值偏向问题,并分析了属性多值对属性的重要度的影响。最后实验验证该理论分析方法的正确性与可行性。  相似文献   

3.
基于通信系统的决策树构造算法   总被引:1,自引:1,他引:0  
决策树构造过程中的属性选择标准一直是数据挖掘领域的研究热点。本研究在分析ID3算法和C4.5算法属性选择策略的基础上,基于通信系统中的平均自信息与平均互信息提出了两种决策树的构造算法。研究过程中从理论证明了所提出的两种算法与ID3算法以及C4.5算法是等价的,即,信息增益等价于通信系统中的平均互信息,而信息增益率等价于通信系统中平均互信息与平均自信息的比值。在AllElectronics数据集进行的实验表明:与信息增益和信息增益率相比,本研究提出的属性选择标准具有计算方便、且容易理解的特点。  相似文献   

4.
当前,远程教学系统缺少智能性,不能提供个性化教学,引入ID3算法后可以根据学习者的特征对其分类,从而实现对不同学习者的针对性教学.然而传统的决策树ID3算法存在多值倾向的问题,选择分裂属性不符合客观事实.运用一种基于灰色关联分析的修正因子属性选择方法予以改进,对取值较多但灰色关联度低的属性,在计算其信息增益时通过灰色关联度的正弦值作为修正因子,克服传统ID3算法的不足.将改进的ID3算法引入到远程教学系统中,可以更好地对学习者进行分类以实现智能化导学.  相似文献   

5.
针对基于信息熵的决策树算法中存在多值属性偏向、连续属性处理不佳和时间复杂度较高等问题,提出一种基于离散比概念的决策树特征度量方法.首先采用K-means聚类算法对连续性数值属性进行离散化处理,其次利用属性在各个分类中的权重以及在整个条件属性中的权重比值,计算出该属性的离散比,避免了计算熵过程中复杂的对数运算,最后根据离散比的大小确定各个特征属性之间的拓扑结构,完成树的构建.结果表明,相较于K_C4.5和Id3_improved两种改进的决策树算法,基于离散比属性分割的算法能更有效地解决多值属性偏向,降低算法的时间复杂度,并且在实际产生的连续性数据集的分类应用上有进一步的突破.  相似文献   

6.
提出了一种基于分布多库环境下的决策树生成算法DDTA(Distributed Decision Tree Algorithm).该算法使用基于信息熵增益的思想分割各个分布的、同构训练样本集,各分布站点利用服务器传来的分割属性分割自己的样本集,服务器则通过对所有分布站点传来的信息计算各个属性的信息熵增益得到分割属性.实验表明DDTA算法能对分布同构样本集进行有效决策树挖掘,分布多库环境下生成的决策树是正确的.与算法INDUS相比,该算法的通信代价小.  相似文献   

7.
ID3算法是示例学习中建立决策树的一种重要的方法.介绍了 ID3决策树算法的基本思想,讨论了ID3决策树算法中的难点和不足,结合实例给出了利用信息增益度法来改进ID3算法的详细过程.  相似文献   

8.
针对ID3算法用信息增益作为在各级非叶节点上选择属性的标准的局限性,结合统计学独立检验思想,给出一种新的属性依赖性和重要性定义,以新的属性重要性为启发式信息设计决策树规则提取算法。实例分析的结果表明,该算法能提取更为简洁有效的决策规则。  相似文献   

9.
决策树算法是数据挖掘中重要的分类算法,但目前多数针对决策树的改进方法都基于传统的串行算法,不能满足大数据环境下对海量数据挖掘的需要.针对大数据集中串行挖掘算法效率低下的问题,采用MapReduce对决策树算法进行了并行化实现,同时引入修正参数来改进ID3算法倾向于多值属性选取的问题.实验结果表明,该算法具有较好的并行性和扩展性,能有效处理大数据集的分类问题.  相似文献   

10.
针对基分类器算法偏向选择多值属性以及大量对数运算引起运算复杂的问题,提出一种基于属性相容性的随机森林算法。引入粗糙集中的属性相容性,计算各个条件属性的相容度,利用宽相容度辅助严相容度构建分割属性的划分规则,重建基分类器的信息增益或信息增益率表达式。实验结果表明,改进算法在保持对数据量较多时有较高分类准确率前提下,对数据量较少时的分类准确率有显著提升,且降低了运算复杂度。  相似文献   

11.
针对数据挖掘决策树中迭代二叉树3代算法复杂的对数运算以及属性取值多向依赖的缺陷,提出了一种改进算法。该算法将对数运算改进为简易的普通运算,引入重要度、关联度概念以及调整系数,形成一个综合评价指数来确定作为决策树生成的划分结点的属性。仿真结果表明,改进算法简化了计算过程、提高了运算效率,同时使得决策树的形成不依赖属性多值取向。  相似文献   

12.
针对传统的决策树区域滑坡预测模型难以刻画诱发因子雨量值的问题,提出了不确定模糊ID3决策树模型.首先设计了面积积分法,结合复合型隶属度函数将不确定属性模糊化以刻画雨量值,并结合ID3决策树算法,构造区域滑坡危险性预测模型,对延安市宝塔区进行滑坡危险性预测.实验数据结果证明,该模型的预测精度达到了可信要求,高于模糊ID3决策树预测模型;与不确定决策树算法和不确定多分类支持向量机算法相比,不确定模糊ID3算法具有预测精度收敛快和受样本数量影响较小等优势,具备较强的实践意义.  相似文献   

13.
为了使构造的决策树更简单,规则更容易被理解且精度更高,文章基于粗糙集理论提出了一种对属性约简及泛化的多变量决策树算法。该方法采用条件属性的加权平均粗糙度这个指标来选择测试属性构造决策树。实验表明该方法较ID3算法得到的决策树更小且分类准确率更高。文章还展望用核属性以外的条件组合属性作测试属性构造更简化的多变量决策树。  相似文献   

14.
针对在C4.5决策树构造过程中,测试属性选择未考虑属性之间影响的缺点,提出了一种改进的C4.5决策算法.该算法使用一个属性与其他属性的平均信息熵表示这个属性与其他属性的冗余度,然后在选择测试属性的过程中,加入测试属性与其他属性的冗余度,通过信息增益、分裂熵和冗余度三个因素的评价,选择信息增益率高而与其他属性冗余度低的测试属性.实验结果表明,在选定的实验数据集上,改进后的C4.5决策树算法平均分类正确率提高.  相似文献   

15.
一种基于信息熵建立决策树的算法   总被引:2,自引:0,他引:2  
信息论给出了信息的数学本质,提出了用热力学中的熵来度量信息量的大小。分类是一个重要的数据挖掘问题,在训练数据集上建立分类树的关键是如何选择决策树每一个内部结点的测试属性。传统的决策树建立算法利用信息论中熵的概念选择属性,具有偏向于取值较多属性的缺点。本文分析了信息论中有关熵的一些基本概念和含义,讨论了它们在挖掘分类树中的应用,利用互信息设计了一个建立分类树的算法,克服了传统算法的缺点。  相似文献   

16.
基于不可分辨关系、复合运算、集合运算和逻辑运算等集合论概念,构造一种新型的多变量决策树算法。该算法包括5个步骤:依据决策属性值划分出决策类;利用决策类之间条件属性集相交判断二义性条件属性值;利用决策类各条件属性值域的不同判断独立决策条件属性值;利用决策类自身条件属性集进行复合运算,获得多变量决策方法;使用或运算符(∨)连接各个部分的决策规则以取得完整的决策规则。以决策树典型训练集(气象信息系统)为例进行验证,其结果表明,该算法行之有效。通过时间复杂度的分析结果表明,该算法较之粗糙集算法更优,而且不亚于ID3算法。    相似文献   

17.
决策树技术是一种对海量数据集进行分类的非常有效方法。通过构造决策树模型,提取有价值的分类规则,帮助决策者做出准确的预测已经应用在很多领域。基于这种技术构造的蘑菇可食用性决策树模型,提供了通过蘑菇属性判别蘑菇可食用性的科学依据。决策树算法采用C4.5算法,它把信息增益率作为属性选择的度量标准。从实验结果来看,决策树模型虽然显示了一个很不平衡的结构,但得出了很容易理解的决策规则。  相似文献   

18.
当前信用评级普遍采用的传统方法如专家法、信用评分法中,属性的权重大小受评价者主观影响大,可能造成评价结果偏差失准,并增加评价的时间消耗。本文将决策树模型引入信用评级体系中,在道路客运行业信用评级体系中建立一种新的评价方法。结果表明,采用ID3算法的决策树方法通过定量计算训练集样本中各属性互信息的大小,可以迅速地得到一棵决策树,从而通过对训练样本的统计计算避免了主观判断属性权重带来的弊端。当该决策树经过全面、良好的测试和调整后,可足够健壮,能较好地运用于信用评价。  相似文献   

19.
为充分挖掘隐藏于遥测数据中的规则知识,发现数据间的关联性,采用ID3算法对卫星太阳帆板遥测数据进行挖掘分析,计算各类参数的信息增益值,以最大增益值为分裂属性构建出相关性决策树,得到决策知识,发现影响太阳帆板状态变化的参数间的关联性,为卫星在轨性能分析和故障诊断提供依据.分析结果表明,采用ID3算法对遥测数据进行分析可以获得预期的结果.  相似文献   

20.
针对现有方法对与正常消息相似度较高的畸形SIP消息检测效果不佳的问题,提出了一种基于c4.5决策树的IMS网络畸形SIP消息检测方法。该方法首先利用n—gram技术将SIP消息映射至高维空间,利用样本属性的信息增益进行特征提取;然后基于C4.5决策树算法,根据特征属性的信息增益率构建决策树并对畸形SiP消息进行检测;最后定义了畸形SIP消息构造函数并构建相应样本数据集,对该方法进行了仿真验证。仿真结果表明,该方法对与正常消息相似度较高的畸形SIP消息具有94.8%的检测率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号