首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 62 毫秒
1.
一种基于聚类的粗糙集连续属性的离散化算法   总被引:4,自引:0,他引:4  
粗糙集理论是一种新的处理不精确、不完全与不相容知识的数学工具。粗糙集理论只能对离散属性进行处理,而不能处理连续属性。中针对这一缺陷,利用连续数值属性有序性的性质和统计方差理论,提出了一种基于聚类的连续属性离散化算法。运用典型数据将本算法与现有方法进行了比较分析,得到了满意的结果。  相似文献   

2.
李刚  段隆振  孙焱平 《江西科学》2009,27(2):251-254
提出了一种基于多连续属性的离散化改进算法,在信息增益的离散化算法基础上,将离散化结果加以修正,并结合实例,详细说明该改进算法能更准确的判断出噪声数据、异常数据和错误数据,实现对这些数据的区别对待。  相似文献   

3.
一种连续属性离散化的新算法   总被引:5,自引:0,他引:5  
连续属性的离散化问题是机器学习、数据挖掘等领域中重要研究课题之一,本文深入讨论连续属性离散的各种方法,提出一种基于RS理论和条件信息熵的决策表条件属性离散化算法,计算简单、易实现并以实例加以说明。  相似文献   

4.
讨论模糊C均值聚类算法在决策表条件属性对决策属性的相容程度的指导下对粗集理论中的连续属性进行离散化的一种新算法。该算法充分考虑属性之间的相关性,将所有连续属性转化为矩阵同时处理,能明显提高传统动态层次聚类算法离散化过程的速度。算法测试结果表明,新算法能较好地保留有效属性,提高离散化精度。  相似文献   

5.
连续属性的离散化是粗糙集理论亟待解决的关键问题之一。基于灰色系统和粗糙集的有关理论,提出了 一种新的基于属性重要性的离散化算法。该算法以条件属性对决策属性的灰色关联度来度量条件属性的重要性, 在保证决策表原始分类能力不变的前提下,按照属性重要性由小到大的顺序对每个条件属性的侯选断点进行考 察!将冗余的断点去掉,从而将条件属性离散化。同时给出了该算法的时间复杂度分析,并通过实例分析验证了算 法的有效性和实用性。  相似文献   

6.
本文探讨了基于属性重要性、基于信息熵、基于遗传算法和基于聚类的离散化算法,通过分析总结了各算法的优点及不足,并提出有待解决的问题.  相似文献   

7.
概念学习中连续值型属性的离散化   总被引:1,自引:0,他引:1  
在概念学习中,属性不仅可以为离散值型,还可以为连续值型,因此,连续值型属性的离散化问题是概念学习中的一个重要问题,本给出了基于假设检验的离散化方法的理论依据,并依此提出了一种离散化算法Discrete,实验结果表明,这种方法一有得到较合理的区间划分。  相似文献   

8.
讨论模糊C均值聚类算法在决策表条件属性对决策属性的相容程度的指导下对粗集理论中的连续属性进行离散化的一种新算法.该算法充分考虑属性之间的相关性,将所有连续属性转化为矩阵同时处理,能明显提高传统动态层次聚类算法离散化过程的速度.算法测试结果表明,新算法能较好地保留有效属性,提高离散化精度.  相似文献   

9.
基于启发式信息熵的粗集数值属性离散化算法   总被引:1,自引:0,他引:1  
在一致性假设前提下,以数据集的统计性质作为启发式知识,从候选离散点集中选择离散点,根据数据集的期望值和方差来确定搜索最优离散点的区域,提出一种新的基于信息熵粗集数值属性离散化算法,并采用UCI国际标准数据集来验证新算法.新算法与已报道的算法所得到的离散断点集完全一致,决策表的离散化结果也相同,但时间代价不同,新算法比其计算效率提高40%~50%.  相似文献   

10.
连续型属性的离散化问题是机器学习中的关键问题,是一个NP难题.该文针对决策表,在NaiveScaler算法的基础上,给出了一种直观、有效和易于理解的离散化方法.该方法从整个属性空间的角度来考虑属性的离散化问题,可有效地保证决策表中原有分类结果的不变性.  相似文献   

11.
针对在使用粗糙集理论处理决策表时需要事先对连续属性进行离散化处理的问题,提出了一种基于连续属性分布特征的离散化算法.并通过实例分析说明该算法能在保证决策表原始分类能力不变的前提下,获得较少的断点数.  相似文献   

12.
一种基于粗糙集理论的连续属性离散化方法   总被引:14,自引:0,他引:14  
基于粗糙集的有关理论,提出了一种新的连续属性离散化方法·首先说明决策属性支持度的概念,再利用决策属性支持度作为反馈信息,提出一种领域独立的基于决策属性支持度的连续属性离散化算法·该算法能在保证决策表原始分类能力不变的前提下,提高约简效率·同时,各个属性拥有较少的分割区间,会使规则集合更加简洁·通过实例分析比较,说明该算法是非常有效的·  相似文献   

13.
知识发现过程中连续属性离散化方法研究   总被引:8,自引:0,他引:8  
在综合分析知识发现过程中连续属性离散化方法的基础上,提出了一种基于全局聚类分析来处理连续属性离散化问题的方法。实例验证结果表明该方法对知识发现过程中连续属性离散化的划分更为合理。  相似文献   

14.
目前决策树中很多分类算法例如ID3/C4.5/C5.0等都依赖于离散的属性值,并且希望将它们的值域划分到一个有限区间。利用统计学法则,提出一种新的连续属性值的划分方法;该方法通过统计学法则来发现精准的合并区间。另外在此基础上,为提高决策树算法分类学习性能,提出一种启发式的划分算法来获得理想的划分结果.在UCI真实数据集上进行仿真实验.结果表明获得了一个比较高的分类学习精度、与常见的划分算法比较起来有很好的分类学习能力。  相似文献   

15.
离散化是Rough集理论研究的一个重要内容,目前基于Rough集的离散化算法很难做到高效率和高识别率兼顾.文中分析了基于断点重要性算法和基于属性重要性算法的特点,确定了离散化思路,提出了一种基于Rough集的集成离散化算法.该算法能够有效降低候选断点的数目,快速地实现决策表的离散化.实验结果表明,文中算法保持了与已有算法可比的识别率,且运行效率更高.  相似文献   

16.
有效判别决策表中离散化后样本数据的类型对于对后继阶段的机器学习和数据挖掘过程具有非常重要的意义.本文提出了一种基于属性重要性和样本信息熵的数据类型判别方法,并利用人工改造的一部分UCI数据库进行了模拟试验,结果表明方法是有效的,识别样本数据的准确率较高、识别错误率和拒识率较低.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号