首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
决策系统中连续属性离散化,即将一个连续属性分为若干属性区间并为每个区间确定一个离散型数值,对后继阶段的机器学习具有重要的意义。首先研究了满足决策系统最优划分的一种计算候选断点集合的算法,然后在基于条件属性重要度和贪心算法的基础上提出了一种确定结果断点子集的新启发式算法。所提出的属性离散算法考虑并体现了粗糙集理论的基本特点和优点,并能取得较理想的连续属性离散化结果。  相似文献   

2.
粗糙集理论中基于遗传算法的离散化方法   总被引:7,自引:2,他引:7  
离散化在粗糙集的实际应用中有重要的意义,它使得粗糙集有更广泛的应用范围。粗糙集中的离散化要求在保持原来决策系统的不可分辩关系情况下,用尽量少的断点进行离散化。文章针对该问题提出了一种遗传算法,将最小断点集作为优化目标,并构造一个新的算子来保证所选断点能保持原决策系统的不可分辩关系,同时相应地采用自适应变异策略。最后对实例进行了求解。  相似文献   

3.
一种基于粗糙集的离散化算法   总被引:1,自引:0,他引:1  
粗糙集理论以其独特的数据约简能力在不确定信息处理的相关领域得到广泛关注和研究,而连续属性的离散化是粗糙集方法及其它归纳学习系统中的重要环节.将离散化视作一种信息概括、抽象和约简,利用粗糙集理论提出一种全局的离散化算法.算法通过定义一致性度量,实现全局离散,弥补了局部离散化MDLP方法引入不一致的缺陷.然后在保持一致性前提下,进一步对离散中分割点的冗余进行约简.实验采用ID3和粗糙集分类工具ROSETTA在多个大数据集上对提出的离散方法进行分类验证,实验结果表明该算法的有效性和优越性.  相似文献   

4.
基于粗糙集理论和信息熵的属性离散化方法*   总被引:1,自引:0,他引:1  
在分析当前研究中常用的属性离散化方法的基础上,提出了一种计算初始断点集合的算法;定义了断点的信息熵,并以此作为对断点重要性的度量,提出了一种基于粗糙集理论和信息熵的属性离散化算法。通过与其他离散化算法的对比实验,验证了本算法的有效性,而且在样本数和条件属性数目不断增大时仍有很高的效率。  相似文献   

5.
一种基于粗糙集理论的连续属性离散化新算法*   总被引:3,自引:0,他引:3  
粗糙集理论中要求离散化保持原有决策系统的不可分辨关系,但以往的一些算法在离散过程中会使近似精度控制在可以接受的范围,即允许一定的错分。针对此不足,在保证决策属性绝对不改变的情况下,提出一种新的区间拆分方法,更合理有效地对连续属性进行离散化。实验通过C4.5和支持向量机分别对离散化后的数据进行识别与分类预测,实验结果证明了算法的有效性。  相似文献   

6.
分析了布尔逻辑和粗糙集理论相结合的离散化算法在贝叶斯网络建模中应用的局限性,提出基于断点值逐次扫描划分实例对的连续变量离散化算法,改变了原算法中基于断点区间划分实例对的计算方法,应用实例表明,该算法时间复杂度和空间复杂度较低,具有较强的实用性,更适用于贝叶斯网络中的连续数据离散化处理.  相似文献   

7.
基于信息熵的粗糙集连续属性离散化算法   总被引:60,自引:0,他引:60  
谢宏  程浩忠  牛东晓 《计算机学报》2005,28(9):1570-1574
该文提出了一种新的粗糙集连续属性离散化算法.首先对每一个候选断点定义了信息熵,以此作为对断点重要性的量度,在此基础上给出了断点选择的粗糙集连续属性离散化算法.最后采用多组数据对此算法的性能进行了检验,并与其它算法做了对比实验.实验结果表明此算法是有效的,而且当候选断点个数增多时仍有很高的计算效率.  相似文献   

8.
基于区分矩阵的数据离散化算法   总被引:1,自引:0,他引:1  
由于传统的粗糙理论只能对数据库中离散数据进行处理,而绝大多数现实的数据库既包含了离散数据,又包含了连续数据。针对这一问题,提出了一种基于候选断点区分矩阵的数据离散化算法。该方法以断点核为起点,以候选断点在区分矩阵中出现的频率作为启发信息,逐次选择最重要的断点加入到结果断点子集中,并由最终的断点集得离散化后的信息系统。最后通过实例分析表明,该算法具有较好的离散化效果。  相似文献   

9.
针对粗糙集理论只能处理离散数据的局限,提出了基于决策的剥离式连续属性离散化方法,一改传统的候选断点集合的获取方法,直接通过分析连续属性在各决策类的取值范围和计算属性重要度,完成对连续属性的初步离散.此外,本文提出候选断点集的推移原则,可逐步减小候选断点集的范围.由于每次都是针对尚不能明确分类的样本进行细化,因此随着候选断点集的减少和明确分类样本的增加,系统能够迅速收敛,并且离散化后的决策表总是相容的,这与目前很多离散方法不考虑决策相容性相比,能够最大限度地保留系统的有用信息.本文提出的离散化方法是领域独立的,不需要领域知识,可应用于不同领域的连续属性的离散化.  相似文献   

10.
决策系统中连续属性的离散化,即实型属性空问向整型属性空间的映射,它是对决策表中属性约简的第一步.针对多值决策属性的决策信息系统,提出一种新的属性离散化算法.首先根据决策属性的不同,将条件属性集划分为不同的序列,对每两个序列求取候选断点,最后,综合所有的候选断点即为所求的候选断点集合;然后在基于条件属性重要度和贪心算法的基础上提出一种确定结果断点子集的新启发式算法.实例验证了本文所提出的算法能够取得较理想的连续属性离散化结果.  相似文献   

11.
针对不完备信息系统提出了一种新的粗糙集离散化算法。通过分析候选断点与决策类之间的影响关系,定义了候选断点对决策类的区分能力,并以此作为断点重要性的度量,实现不完备信息系统中连续属性的离散化。仿真实验验证了该算法的有效性。  相似文献   

12.
粗糙集连续属性离散化模型研究与应用要点分析   总被引:10,自引:0,他引:10  
基于粗糙集理论,研究连续属性离散化问题的本质特点,提出粗糙集指标衡量和优化算法结构相统一的离散化思想,设计通用的离散化方法模型。分析主流的SOM网络、GA、层次聚类、信息熵等主流聚类方法的特点,并基于这种结构模型,给出了相应离散化方法的应用要点。  相似文献   

13.
Rough Set中基于聚类的连续属性离散化方法   总被引:3,自引:0,他引:3  
韩秋明  赵轶群 《计算机工程》2003,29(4):81-82,87
分析了一些RoughSet中连续属性离散化的方法,指出了其中的某些不足,并给出了一个基于聚类的连续属性离散化的方法,对当前的论域中的例子根据相似性进行聚类,对每个聚类在各属性轴上的投影的边界设离 散断点。该方法考虑了各属性之间的相关性,能得到比较合理的离散结果。  相似文献   

14.
Multivariate Discretization for Set Mining   总被引:2,自引:0,他引:2  
Many algorithms in data mining can be formulated as a set-mining problem where the goal is to find conjunctions (or disjunctions) of terms that meet user-specified constraints. Set-mining techniques have been largely designed for categorical or discrete data where variables can only take on a fixed number of values. However, many datasets also contain continuous variables and a common method of dealing with these is to discretize them by breaking them into ranges. Most discretization methods are univariate and consider only a single feature at a time (sometimes in conjunction with a class variable). We argue that this is a suboptimal approach for knowledge discovery as univariate discretization can destroy hidden patterns in data. Discretization should consider the effects on all variables in the analysis and that two regions X and Y should only be in the same interval after discretization if the instances in those regions have similar multivariate distributions (F x F y ) across all variables and combinations of variables. We present a bottom-up merging algorithm to discretize continuous variables based on this rule. Our experiments indicate that the approach is feasible, that it will not destroy hidden patterns and that it will generate meaningful intervals. Received 14 November 2000 / Revised 1 February 2001 / Accepted in revised form 1 May 2001  相似文献   

15.
基于Rough Set的数据预处理   总被引:2,自引:0,他引:2  
RoughSet理论是一种新的处理不精确,不完全与不相容知识的数学工具。数据预处理是数据挖掘中必不可少的步骤,处理的结果对下一步数据挖掘有直接影响。论文利用RoughSet一些特性对KDD99中的数据集进行处理,并且针对数据集的特点实现了对其进行数据离散化、属性约简等处理。通过这些处理过程为下一步的数据挖掘打下了基础。  相似文献   

16.
文章绍了粗糙集理论的基本原理,粗糙集理论中的知识表示,并且给出了粗糙集在分类规则数据挖掘中的实现过程。  相似文献   

17.
文章绍了粗糙集理论的基本原理,粗糙集理论中的知识表示,并且给出了粗糙集在分类规则数据挖掘中的实现过程。  相似文献   

18.
基于Rough集理论的属性简约研究   总被引:1,自引:0,他引:1  
张雪梅  高翔 《计算机仿真》2004,21(10):66-69
为了从海量的数据获得知识,数据挖掘被广泛地应用于知识发现。粗糙集理论是一种研究不确定性知识的工具,该文从Rough集理论的基本概念出发,对基于Rough集的信息系统决策表的属性简约问题进行了研究,挖掘出隐藏于信息表中的统计信息。该文对Rough集属性重要性在属性简约中的应用进行了研究,研究发现熵作为一种衡量信息量的重要工具,将其引入属性重要性的定义,考虑该属性对于论域中不确定分类子集的影响,使属性重要性这一概念更加完善。文章将这一概念应用于水声信号的目标识别,给出仿真结果,提出了以后的研究方向。  相似文献   

19.
洪菁  陈强  刘惠彬 《微机发展》2006,16(10):32-34
对传统的粗糙集理论进行了扩展,提出了一种改进的粗糙集归纳学习方法。一方面,针对连续属性离散化,利用模糊集理论对连续属性进行模糊化,再根据模糊贴近度构造模糊相似矩阵,并用k-w方法粗略评估各连续属性的重要度,建立基于模糊相似关系的划分,最终生成相容的决策表。另一方面,针对解决最优属性的选择问题,提出一种加权求和的属性重要度定义。基于以上模型开发了一个原型系统,并以一个工程实例验证了此方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号