首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
基于粗糙集合理论的决策树生成   总被引:4,自引:1,他引:3  
决策树算法是一种采用发治策略的自顶向下的归纳算法,传统的决策树算法往往是基于信息论度量的。文章以粗糙集合理论中的区分观点为基础,提出了两种新型的属性选择判据:区分度和区分价值。实验结果表明,采用区分价值的属性选择策略所生成的决策树要明显优于基于熵的属性选择策略。  相似文献   

2.
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,分离属性的选择标准直接影响到分类的效果,传统的决策树算法往往是基于信息论度量的。基于粗糙集的理论提出了一种基于属性重要度和依赖度为属性选择标准的决策树规则提取算法。使用该算法,能提取出明确的分类规则,比传统的IDB算法结构简单,并且能提高分类效率。  相似文献   

3.
决策树算法是一种采用分治策略的自顶向下的归纳算法,传统的决策树算法往往是基于信息论度量的.文章以粗糙集合理论中的区分观点为基础,提出了两种新型的属性选择判据:区分度和区分价值.实验结果表明,采用区分价值的属性选择策略所生成的决策树要明显优于基于熵的属性选择策略.  相似文献   

4.
针对C4.5决策树算法在处理多维数据分类时,没有考虑各属性对分类结果的影响,导致分类准确率低的问题,提出一种基于距离权值的C4.5组合决策树算法。根据标准欧式距离定义数据属性的距离权值,更新C4.5决策树算法的信息增益率,得到基于距离权值的C4.5算法。利用改进后的C4.5决策树分类算法训练多个基分类器,基分类器通过Bagging集成方法构建组合决策树。实验结果表明,该算法在处理多维数据时有较高的准确性和稳定性。  相似文献   

5.
丁春荣  李龙澍 《微机发展》2007,17(11):110-113
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,分离属性的选择标准直接影响到分类的效果,传统的决策树算法往往是基于信息论度量的。基于粗糙集的理论提出了一种基于属性重要度和依赖度为属性选择标准的决策树规则提取算法。使用该算法,能提取出明确的分类规则,比传统的ID3算法结构简单,并且能提高分类效率。  相似文献   

6.
传统[K]-modes算法在分类属性聚类中有着广泛的应用,但是传统算法并不区分有序分类属性与无序分类属性。在区分这两种属性的基础上,提出了一种新的距离公式,并优化了算法流程。基于无序分类属性的距离数值,确定了有序分类属性相邻属性值之间距离数值的合理范围。借助有序分类属性蕴含的顺序关系,构建了有序分类属性的距离公式。计算样本点与质心距离之时,引入了簇内各属性值的比例作为总体距离公式的重要参数。综上,新的距离公式良好地刻画了有序分类属性的距离,并且平衡了两种不同分类属性距离公式之间的差异性。实验结果表明,提出的改进算法和距离公式在UCI真实数据集上比原始[K]-modes算法及其改进算法均有显著的效果。  相似文献   

7.
针对决策树构造中存在的最优属性选择困难、抗噪声能力差等问题,提出了一种新的基于变精度粗糙集模型的决策树构造算法.该算法采用近似分类精度作为节点选择属性的启发函数,与传统基于粗糙集的决策树构造算法相比,该算法构造的决策树结构简单,提高了决策树的泛化能力,同时对噪声也有一定的抑制能力.  相似文献   

8.
基于粗集和熵的多变量决策树的构造算法   总被引:1,自引:0,他引:1  
罗秋瑾  马锐 《计算机应用》2007,27(7):1708-1710
多变量决策树是一种有效用于分类的数据挖掘方法,构造的关键是根据属性之间的相关性选择合适的属性组合作为节点。针对传统方法中用相对核进行多变量检验中属性选择存在的不足,首先对每个节点包含的属性个数加以限制,然后由重新定义的属性依赖度和基于条件熵的距离函数选择相关的属性组合作为节点,从而提出一种新的构造算法。实例说明,该算法不仅有效降低了树的高度,而且还兼顾了分类的可读性。  相似文献   

9.
基于新的距离度量的K-Modes聚类算法   总被引:5,自引:1,他引:4  
传统的K-Modes聚类算法采用简单的0-1匹配差异方法来计算同一分类属性下两个属性值之间的距离, 没有充分考虑其相似性. 对此, 基于粗糙集理论, 提出了一种新的距离度量. 该距离度量在度量同一分类属性下两个属性值之间的差异时, 克服了简单0-1匹配差异法的不足, 既考虑了它们本身的异同, 又考虑了其他相关分类属性对它们的区分性. 并将提出的距离度量应用于传统K-Modes聚类算法中. 通过与基于其他距离度量的K-Modes聚类算法进行实验比较, 结果表明新的距离度量是更加有效的.  相似文献   

10.
数字水印有多种属性,水印的鲁棒性是水印重要属性之一.根据水印鲁棒性的不同可将水印分为鲁棒性水印和脆弱性水印,这两种属性是对立的属性,因此某种使用智能分类算法能够将这两种水印相互区分.决策树算法是一种有监督的实例分类算法,能够将不同属性的实例进行分类,已在多个学科领域进行应用.使用决策树算法对的数字水印进行分类可以作为水印分类算法方法的补充.  相似文献   

11.
支持个性化推荐的用户分类规则挖掘的研究   总被引:1,自引:0,他引:1  
提出了一种应用决策树分类技术进行用户分类的方法 ,通过对 Web会话文件的处理、赋予类标记及决策树分类过程 ,实现了根据访问模式对用户的分类 ,以便个性化推荐和指导能够针对不同类别的用户进行 ,从而提高 E- Ser-vices中个性化服务的质量 .还讨论了待分类数据集中条件属性的选择和决策属性的类标记问题 ,给出了应用分类规则进行推荐的过程  相似文献   

12.
基于隐私保护的分类挖掘   总被引:9,自引:0,他引:9  
基于隐私保护的分类挖掘是近年来数据挖掘领域的热点之一,如何对原始真实数据进行变换,然后在变换后的数据集上构造判定树是研究的重点.基于转移概率矩阵提出了一个新颖的基于隐私保护的分类挖掘算法,可以适用于非字符型数据(布尔类型、分类类型和数字类型)和非均匀分布的原始数据,可以变换标签属性.实验表明该算法在变换后的数据集上构造的分类树具有较高的精度.  相似文献   

13.
基于新的条件熵的决策树规则提取方法   总被引:9,自引:0,他引:9  
分析了知识约简过程中现有信息熵反映决策表“决策能力”的局限性,定义了一种新的条件熵,以弥补现有信息熵的不足;然后对传统启发式方法中选择属性的标准进行改进,由此给出了新的属性重要性定义;以新的属性重要性为启发式信息设计决策树规则提取方法。该方法的优点在于构造决策树及提取决策规则前不进行属性约简,计算直观,时间复杂度较低。应用实例分析的结果表明,该方法能提取更为简洁有效的决策规则。  相似文献   

14.
ID3算法是一种信息熵的决策树学习算法,把信息熵作为选择测试属性的标准,对训练实例集进行分类并构造决策树来预测如何由属性对整个实例空间进行划分。ID3算法对于相对小的数据集是很有效的,但对大型数据库而言,ID3算法无法处理。SLIQ分类算法使用了一些独特的技术,改进了学习的时间,同时在没有降低精确度的情况下,解决了对磁盘驻留大数据集的分类。具有更快的速度而且生成较小的树。  相似文献   

15.
属性频率划分和信息熵离散化的决策树算法   总被引:2,自引:0,他引:2       下载免费PDF全文
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,节点划分属性选择的度量直接影响决策树分类的效果。基于粗糙集的属性频率函数方法度量属性重要性,并用于分枝划分属性的选择和决策树的预剪枝,提出一种决策树学习算法。同时,为了能处理数值型属性,利用数据集的统计性质为启发式知识,提出了一种改进的数值型属性信息熵离散化算法。实验结果表明,新的离散化方法计算效率有明显提高,新的决策树算法与基于信息熵的决策树算法相比较,结构简单,且能有效提高分类效果。  相似文献   

16.
在决策表中,决策规则的可信度和对象覆盖度是衡量决策能力的重要指标。以知识粗糙熵为基础,提出决策熵的概念,并定义其属性重要性;然后以条件属性子集的决策熵来度量其对决策分类的重要性,自顶向下递归构造决策树;最后遍历决策树,简化所获得的决策规则。该方法的优点在于构造决策树及提取规则前不进行属性约简,计算直观,时间复杂度较低。实例分析的结果表明,该方法能获得更为简化有效的决策规则。  相似文献   

17.
节点属性的选择是决策树生成过程中的关键环节,以ID3和C4.5为代表的经典决策树算法中,树节点的选择是通过子集样本数计算信息增益或增益比例得到的。但是,对于连续性属性,由于离散化分割导致了子集边界元素在隶属关系上的模糊,使样本计算的方式存在了一定的不合理性,为解决这一问题,采用了模糊集理论并以模糊度的方式取代样本个数参与增益比例的计算,给出了一种获得决策树分类中不确定性尺度的可行途径。  相似文献   

18.
一种基于ID3的前剪枝改进算法   总被引:2,自引:0,他引:2  
ID3算法作为一种流行的决策树算法,因为其算法简单、易实现而被广泛使用。但其生成的树结构往往过于庞大,复杂,也影响了算法效率。为了优化树的结构,提高树生成的效率,避免“过拟合”效应,本文将每个分类属性分类后的效果也考虑在内,即,若分类效果达到某个预定的标准则终止那条分支继续分类,并引入了最大支持度的概念,采用了前剪枝策略,对ID3算法进行了改进。实验结果显示,改进算法的确能够使生成的决策树在保证精度的基础上更加精简。  相似文献   

19.
具有层次结构的分类属性在客户细分应用中广泛存在。针对传统相异性度量无法准确反映决策者在与细分目标相关的决策指标上的偏好信息,提出一种改进的距离层次并给出使用该度量,基于聚类分析的客户细分基本流程。该度量利用距离层次计算各分类属性值概念间的相异性,同时引入指标距离的概念描述对于特定指标,决策者在不同分类属性值上的偏好,结合模糊相似优先比决策方法和树的广度优先遍历计算不同分类属性值间的指标距离,最后通过将所求得的概念距离和指标距离进行加权求和以更全面地度量不同分类属性值间的相异性。对陕西省电力公司工业客户进行细分实验的结果表明:与传统距离层次相比,采用改进相异性度量能提高聚类质量和细分结果的可解释性。  相似文献   

20.
根据手写体金融汉字的特点,利用核聚类方法将原始样本特征映射到高维特征进行聚类分组,对每一组使用一个支持向量机二值分类器进行分类,并用这些二值分类器组成决策树的结点,构成一个决策分类树。给出了金融汉字的分组方法和决策树的生成算法,提出利用交叠系数来控制交叠,可以克服错分积累,提高分类准确率。实验结果表明,采用该方法,手写体金融汉字识别的速度和正确率都达到了实用的要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号