首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 265 毫秒
1.
传统决策树通过对特征空间的递归划分寻找决策边界,给出特征空间的“硬”划分。但对于处理大数据和复杂模式问题时,这种精确决策边界降低了决策树的泛化能力。为了让决策树算法获得对不精确知识的自动获取,把模糊理论引进了决策树,并在建树过程中,引入神经网络作为决策树叶节点,提出了一种基于神经网络的模糊决策树改进算法。在神经网络模糊决策树中,分类器学习包含两个阶段:第一阶段采用不确定性降低的启发式算法对大数据进行划分,直到节点划分能力低于真实度阈值[ε]停止模糊决策树的增长;第二阶段对该模糊决策树叶节点利用神经网络做具有泛化能力的分类。实验结果表明,相较于传统的分类学习算法,该算法准确率高,对识别大数据和复杂模式的分类问题能够通过结构自适应确定决策树规模。  相似文献   

2.
懒惰式决策树分类是一种非常有效的分类方法。它从概念上为每一个测试实例建立一棵“最优”的决策树。但是,大多数的研究是基于小的数据集合之上。在大的数据集合上,它的分类速度慢、内存消耗大、易被噪声误导等缺点,影响了其分类性能。通过分析懒惰式决策树和普通决策树的分类原则,提出了一种新的决策树分类模型,Semi—LDtree。它生成的决策树的节点,如普通决策树一样,包含单变量分裂,但是叶子节点相当于一个懒惰式决策树分类器。这种分类模型保留了普通决策树良好的可解释性,实验结果表明它提高了分类速度和分类精确度,在某些分类任务上它的分类性能经常性地胜过两者,特别是在大的数据集合上。  相似文献   

3.
分支合并对决策树归纳学习的影响   总被引:2,自引:0,他引:2  
王熙照  杨晨晓 《计算机学报》2007,30(8):1251-1258
传统的决策树构建方法,由于其选择扩展属性时的归纳偏置,导致属性值较多的属性总会被优先选择,从而导致树的规模过大,并且泛化能力下降,因此需对其进行简化.剪枝是简化的一种,分为预剪枝和后剪枝.该文主要针对预剪枝中的分支合并进行研究.文中研究了分支合并对决策树归纳学习的影响;具体讨论了在决策树的产生过程中,选择适当的分支合并策略对决策树进行分钟合并处理后,能否增强树的可理解性,减少树的复杂程度以及提高树的泛化精度;基于信息增益,分析了分支合并后决策树的复杂程度,设计实现了一种基于正例比的分支合并算法SSID和一种基于最大增益补偿的分支合并算法MCID.实验结果显示:SSID和MCID所得到的决策树在可理解性和泛化精度方面均明显优于See5.  相似文献   

4.
一种新的基于粗糙集构造决策树的方法   总被引:1,自引:0,他引:1  
单变量决策树算法生成的决策树具有规模庞大、规则复杂且不易理解的不足.采用粗糙集相对核、加权粗糙度的概念和类别因子相结合的方法,提出一种新的决策树生成算法.对于即将生长的节点,若节点样本的类别因子大于给定阈值,则停止生长该节点,如此就有效地避免了划分过细的问题.通过实验说明,该算法比传统的ID3算法生成的决策树更简单、更易于理解、抗噪声能力更强.  相似文献   

5.
一种多变量决策树的构造与研究   总被引:3,自引:0,他引:3       下载免费PDF全文
单变量决策树算法造成树的规模庞大、规则复杂、不易理解,而多变量决策树是一种有效用于分类的数据挖掘方法,构造的关键是根据属性之间的相关性选择合适的属性组合构成一个新的属性作为节点。结合粗糙集原理中的知识依赖性度量和信息系统中条件属性集的离散度概念,提出了一种多变量决策树的构造算法(RD)。在UCI上部分数据集的实验结果表明,提出的多变量决策树算法的分类效果与传统的ID3算法以及基于核方法的多变量决策树的分类效果相比,有一定的提高。  相似文献   

6.
潜在属性空间树分类器   总被引:2,自引:0,他引:2  
何萍  徐晓华  陈崚 《软件学报》2009,20(7):1735-1745
提出一种潜在属性空间树分类器(latent attribute space tree classifier,简称LAST)框架,通过将原属性空间变换到更容易分离数据或更符合决策树分类特点的潜在属性空间,突破传统决策树算法的决策面局限,改善树分类器的泛化性能.在LAST 框架下,提出了两种奇异值分解斜决策树(SVD (singular value decomposition) oblique decision tree,简称SODT)算法,通过对全局或局部数据进行奇异值分解,构建正交的潜在属性空间,然后在潜在属性空间内构建传统的单变量决策树或树节点,从而间接获得原空间内近似最优的斜决策树.SODT 算法既能够处理整体数据与局部数据分布相同或不同的数据集,又可以充分利用有标签和无标签数据的结构信息,分类结果不受样本随机重排的影响,而且时间复杂度还与单变量决策树算法相同.在复杂数据集上的实验结果表明,与传统的单变量决策树算法和其他斜决策树算法相比,SODT 算法的分类准确率更高,构建的决策树大小更稳定,整体分类性能更鲁棒,决策树构建时间与C4.5 算法相近,而远小于其他斜决策树算法.  相似文献   

7.
贝叶斯网络(BN)应用于分类应用时对目标变量预测有直接贡献的局部模型称作一般贝叶斯网络分类器(GBNC)。推导GBNC的传统途径是先学习完整的BN,而现有推导BN结构的算法限制了应用规模。为了避免学习全局BN,提出仅执行局部搜索的结构学习算法IPC-GBNC,它以目标变量节点为中心执行广度优先搜索,且将搜索深度控制在不超过2层。理论上可证明算法IPC-GBNC是正确的,而基于仿真和真实数据的实验进一步验证了其学习效果和效率的优势:(1)可输出和执行全局搜索的PC算法相同甚至更高质量的结构;(2)较全局搜索消耗少得多的计算量;(3)同时实现了降维(类似决策树学习算法)。相比于绝大多数经典分类器,GBNC的分类性能相当,但兼具直观、紧凑表达和强大推理的能力(且支持不完整观测值)。  相似文献   

8.
噪声数据降低了多变量决策树的生成效率和模型质量,目前主要采用针对叶节点的剪枝策略来消除噪声数据的影响,而对决策树生成过程中的噪声干扰问题却没有给予关注。为改变这种状况,将基本粗糙集(rough set,RS)理论中相对核的概念推广到变精度粗糙集(variable precision roughset,VPRS)理论中,并利用其进行决策树初始变量选择;将两个等价关系相对泛化的概念推广为两个等价关系多数包含情况下的相对泛化,并利用其进行决策树初始属性检验;进而给出一种能够有效消除噪声数据干扰的多变量决策树构造算法。最后,采用实例验证了算法的有效性。  相似文献   

9.
师彦文  王宏杰 《计算机科学》2017,44(Z11):98-101
针对不平衡数据集的有效分类问题,提出一种结合代价敏感学习和随机森林算法的分类器。首先提出了一种新型不纯度度量,该度量不仅考虑了决策树的总代价,还考虑了同一节点对于不同样本的代价差异;其次,执行随机森林算法,对数据集作K次抽样,构建K个基础分类器;然后,基于提出的不纯度度量,通过分类回归树(CART)算法来构建决策树,从而形成决策树森林;最后,随机森林通过投票机制做出数据分类决策。在UCI数据库上进行实验,与传统随机森林和现有的代价敏感随机森林分类器相比,该分类器在分类精度、AUC面积和Kappa系数这3种性能度量上都具有良好的表现。  相似文献   

10.
陈家俊  苏守宝  徐华丽 《计算机应用》2011,31(12):3243-3246
针对经典决策树算法构造的决策树结构复杂、缺乏对噪声数据适应能力等局限性,基于多尺度粗糙集模型提出一种新的决策树构造算法。算法引入尺度变量和尺度函数概念,采用不同尺度下近似分类精度选择测试属性构造决策树,使用抑制因子对决策树进行修剪,有效地去除了噪声规则。结果表明该算法构造的决策树简单有效,对噪声数据有一定的抗干扰性,且能满足不同用户对决策精度的要求。  相似文献   

11.
The decision tree learning algorithms, e.g., C5, are good at dataset classification. But those algorithms usually work with only one attribute at a time and adopt the greedy method to build the decision tree. The dependencies among attributes are not considered in those algorithms. Unfortunately, in the real world, most datasets contain attributes, which are dependent. Thus, the results generated by those algorithms are not the optimal learning results. However, it is a combinatorial explosion problem for considering multiple attributes at a time. So, it is very important to construct a model to efficiently discovery the dependencies among attributes, and to improve the accuracy and effectiveness of the decision tree learning algorithms. Generally, these dependencies are classified into two types: categorical-type and numerical-type dependencies. This paper proposes a Neural Decision Tree (NDT) model, to deal with these two kinds of dependencies. The NDT model combines the neural network technologies and the traditional decision-tree learning capabilities, to handle the complicated and real cases. According to the experiments on ten datasets from the UCI database repository, the NDT model can significantly improve the accuracy and effectiveness of C5.  相似文献   

12.
Lim  Tjen-Sien  Loh  Wei-Yin  Shih  Yu-Shan 《Machine Learning》2000,40(3):203-228
Twenty-two decision tree, nine statistical, and two neural network algorithms are compared on thirty-two datasets in terms of classification accuracy, training time, and (in the case of trees) number of leaves. Classification accuracy is measured by mean error rate and mean rank of error rate. Both criteria place a statistical, spline-based, algorithm called POLYCLSSS at the top, although it is not statistically significantly different from twenty other algorithms. Another statistical algorithm, logistic regression, is second with respect to the two accuracy criteria. The most accurate decision tree algorithm is QUEST with linear splits, which ranks fourth and fifth, respectively. Although spline-based statistical algorithms tend to have good accuracy, they also require relatively long training times. POLYCLASS, for example, is third last in terms of median training time. It often requires hours of training compared to seconds for other algorithms. The QUEST and logistic regression algorithms are substantially faster. Among decision tree algorithms with univariate splits, C4.5, IND-CART, and QUEST have the best combinations of error rate and speed. But C4.5 tends to produce trees with twice as many leaves as those from IND-CART and QUEST.  相似文献   

13.
为了解决精确数学模型难以建立且求解位置方程时的非线性问题和多阵列数据融合问题,提出基于多级神经网络的被动声定位算法。该算法通过第一级RBF神经网络对声源进行初次定位,并剔除无效数据;再将有效数据输入第二级RBF神经网络,得到置信度更高的声源坐标。仿真结果表明,基于多级神经网络的被动声定位算法定位精度高、速度快,鲁棒性好,其定位性能优于单RBF神经网络和常规算法,甚至在个别传感器失效时,仍然能够取得较好的定位效果。  相似文献   

14.
神经网络集成方法具有比单个神经网络更强的泛化能力,却因为其黑箱性而难以理解;决策树算法因为分类结果显示为树型结构而具有良好的可理解性,泛化能力却比不上神经网络集成。该文将这两种算法相结合,提出一种决策树的构造算法:使用神经网络集成来预处理训练样本,使用C4.5算法处理预处理后的样本并生成决策树。该文在UCI数据上比较了神经网络集成方法、决策树C4.5算法和该文算法,实验表明:该算法具有神经网络集成方法的强泛化能力的优点,其泛化能力明显优于C4.5算法;该算法的最终结果昆示为决策树,显然具有良好的可理解性。  相似文献   

15.
Neural networks and decision tree methods are two common approaches to pattern classification. While neural networks can achieve high predictive accuracy rates, the decision boundaries they form are highly nonlinear and generally difficult to comprehend. Decision trees, on the other hand, can be readily translated into a set of rules. In this paper, we present a novel algorithm for generating oblique decision trees that capitalizes on the strength of both approaches. Oblique decision trees classify the patterns by testing on linear combinations of the input attributes. As a result, an oblique decision tree is usually much smaller than the univariate tree generated for the same domain. Our algorithm consists of two components: connectionist and symbolic. A three-layer feedforward neural network is constructed and pruned, a decision tree is then built from the hidden unit activation values of the pruned network. An oblique decision tree is obtained by expressing the activation values using the original input attributes. We test our algorithm on a wide range of problems. The oblique decision trees generated by the algorithm preserve the high accuracy of the neural networks, while keeping the explicitness of decision trees. Moreover, they outperform univariate decision trees generated by the symbolic approach and oblique decision trees built by other approaches in accuracy and tree size.  相似文献   

16.
混合型学习模型HLM中的增量学习算法   总被引:4,自引:0,他引:4  
混合型学习模型HLM将概念获取算法HMCAP和神经网络算法FTART有机结合,能学习多概念和连续属性,其增量学习算法建立在二叉混合判定树结构和FTART网络的基础上,在给系统增加新的实例时,只需进行一遍增量学习调整原结构,不用重新生成判定树和神经网络,即可提高学习精度,速度快、效率高.本文主要介绍该模型中的增量学习算法.  相似文献   

17.
两种决策树的事前修剪算法   总被引:2,自引:0,他引:2  
屈俊峰  朱莉  胡斌 《计算机应用》2006,26(3):670-0672
修剪决策树可以在决策树生成时或生成后,前者称为事前修剪。决策树上的每一个节点对应着一个样例集,通过分析样例集中样例的个数或者样例集的纯度,提出了基于节点支持度的事前修剪算法PDTBS和基于节点纯度的事前修剪算法PDTBP。为了达到修剪的目的,PDTBS阻止小样例集节点的扩展,PDTBP阻止高纯度样例集节点的扩展。分析表明这两个算法的时间复杂度均呈线性,最后使用UCI的数据实验表明:算法PDTBS,PDTBP可以在保证分类精度损失极小的条件下大幅度地修剪决策树。  相似文献   

18.
肖圣龙  陈昕  李卓 《计算机应用》2017,37(10):2794-2798
大数据时代下,社会安全事件呈现出数据多样化、数据量快速递增等特点,社会安全事件的事态与特性分析决策面临巨大的挑战。高效、准确识别社会安全事件中的攻击行为的类型,并为社会安全事件处置决策提供帮助,已经成为国家与网络空间安全领域的关键性问题。针对社会安全事件攻击行为分类,提出一种基于Spark平台的分布式神经网络分类算法(DNNC)。DNNC算法通过提取攻击行为类型的相关属性作为神经网络的输入数据,建立了各属性与攻击类型之间的函数关系并生成分布式神经网络分类模型。实验结果表明,所提出DNNC算法在全球恐怖主义数据库所提供的数据集上,虽然在部分攻击类型上准确率有所下降,但平均准确率比决策树算法提升15.90个百分点,比集成决策树算法提升8.60个百分点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号