首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 20 毫秒
1.
连续属性离散化算法SHD及其改进   总被引:2,自引:0,他引:2  
为了让规则抽取算法能更好地适用于连续属性领域的问题,文章提出了一种有导师的连续属性离散化算法SHD,并将该算法扩展到多连续属性处理领域。在此基础上,文章对该算法的数据预处理过程进行了探讨,提出了一种基于类间离散度矩阵分析属性空间重构造算法,并将其应用到属性预处理过程中。算法测试证明,对于连续属性领域的问题,使用SHD属性离散化算法将明显改进后继规则抽取算法的效果。  相似文献   

2.
连续属性离散化是机器学习和数据挖掘领域中的一个重要问题,离散化是否合理决定着表达和提取相关信息的准确性。经过研究Chi2系列算法,提出一种新的基于属性重要性的连续属性离散化方法——Imp-Chi2算法,该算法依据属性重要性程度对属性离散化的顺序进行了合理的调整,能够更准确地对连续属性进行离散化。文章通过C4.5和支持向量机分别对离散化后的结果进行了实验,在实验过程中,提出一种训练集类比例抽取方法,避免了训练集随机抽取的不均匀性。实验结果证明了所提算法的有效性。  相似文献   

3.
随着知识发现和数据挖掘的迅速发展,出现了很多的数据挖掘方法,这些方法很多都依赖于离散的数据,连续属性的离散化是数据分析预处理中的一项重要内容,在数据挖掘、机器学习等领域中具有重要作用。然而,在现实世界数据库中,存在着大量的连续值属性。因此,常常需要对连续值属性进行离散化本文利用LVQ神经网络能够找到连续属性断点的功能,提出了一种基于LVQ神经网络的离散化方法,从而实现了对连续属性的离散化。算法分析和实验证明,本算法是切实可行的。  相似文献   

4.
连续属性离散化在机器学习和数据挖掘领域中有着重要的作用。连续属性离散化方法是否合理决定着对信息的表达和提取的准确性。Chi2算法在对连续属性进行离散化处理时,无冲突的数据能够得到较好的结果,但是,对不协调和不完全的数据实验结果不是很理想。利用了Bayseian模型允许一定程度错误分类存在的性质,对Chi2算法进行了改进。改进后的Chi2算法不仅更适合不协调和不完全的数据,还使得区间的合并更加合理。实验结果证明了算法的有效性。  相似文献   

5.
焦冬艳  于津  张华 《现代计算机》2011,(Z1):20-22,28
连续属性离散化是知识系统中的一个重要环节,一个好的离散化方法能够简化知识的描述和便于对知识系统的处理。而求取连续属性值的最优断点集合是一个NP难题。提出一种连续属性模糊离散化的Norm-FD方法:根据正态分布特点采用正态离散化算法(Norm-D算法),使其离散结果达到需要离散区间数,根据属性值和与其相邻的区间关系将具体属性值用F-Inter算法转化为用隶属度、分区号和偏向系数三个参数表示。  相似文献   

6.
连续属性离散化是知识系统中的一个重要环节,一个好的离散化方法能够简化知识的描述和便于对知识系统的处理。而求取连续属性值的最优断点集合是一个NP难题。提出一种连续属性模糊离散化的Norm-FD方法:根据正态分布特点采用正态离散化算法(Norm-D算法),使其离散结果达到需要离散区间数,根据属性值和与其相邻的区间关系将具体属性值用F-Inter算法转化为用隶属度、分区号和偏向系数三个参数表示。  相似文献   

7.
为了解决数据挖掘和机器学习领域中连续属性离散化问题,提出一种改进的自适应离散粒子群优化算法。将连续属性的断点集合作为离散粒子群,通过粒子间的相互作用最小化断点子集,同时引入模拟退火算法作为局部搜索策略,提高了粒子群的多样性和寻找全局最优解的能力。利用粗糙集理论中决策属性对条件属性的依赖度来衡量决策表的一致性,从而达到连续属性离散化的目的,最后采用多组数据对此算法的性能进行了检验,并与其他算法做了对比实验,实验结果表明此算法是有效的。  相似文献   

8.
基于信息熵的二元分割算法离散连续属性,在对连续属性较多,数据量较大的数据集进行分析预测中,存在不足。实验表明,在决策树算法中结合改进后的k-means算法作为连续属性离散化算法,在连续属性较多的数据实例中可以构造出更好的决策树。  相似文献   

9.
郭启铭  樊玮 《计算机工程》2008,34(4):111-112,115
在类一属性相关离散化方法的基础上,提出一种基于Cramer’s V的连续属性离散化算法CVM,该方法利用统计学中的Cramer’s V来量化类一属性相关度,以保证离散后的类一属性相关度最大。与CADD和CAIM算法的实验比较以及对离散化后的数据进行C4.5分类测试,表明CVM算法性能良好,其离散化的数据明显地提高了分类器的预测精度。  相似文献   

10.
在数据挖掘和机器学习研究中,许多算法以离散值为处理对象,常常需要对连续属性进行离散化。以有监督和无监督离散化为线索,对典型离散化算法的基本思想进行梳理总结,并从时间复杂度以及对后续分类的影响等角度进行对比。最后对连续属性离散化的一些主要研究方向进行展望。  相似文献   

11.
基于信息熵的粗糙集连续属性离散化算法   总被引:60,自引:0,他引:60  
谢宏  程浩忠  牛东晓 《计算机学报》2005,28(9):1570-1574
该文提出了一种新的粗糙集连续属性离散化算法.首先对每一个候选断点定义了信息熵,以此作为对断点重要性的量度,在此基础上给出了断点选择的粗糙集连续属性离散化算法.最后采用多组数据对此算法的性能进行了检验,并与其它算法做了对比实验.实验结果表明此算法是有效的,而且当候选断点个数增多时仍有很高的计算效率.  相似文献   

12.
使用信息论的方法进行连续属性的离散化,引入Hellinger偏差HD(Hellinger Divergence)作为每个区间对决策的信息量度量,从而定义切分点的信息熵,最终的离散化结果是使各区间的信息量尽可能平均,分析了HD度量在两种离散化方法中的作用,说明它在划分算法中运用比较理想,而在归并算法中则有局限。  相似文献   

13.
一种连续属性离散化的新方法   总被引:6,自引:0,他引:6  
提出了一种基于聚类方法、结合粗集理论的连续属性离散化方法。在粗集理论中有一个重要概念:属性重要度(Attribute significance),它常用来作为生成好的约简所采用的启发式评价函数。受此启发,在连续属性离散化方法中可把它用于属性选择,即从已离散化的属性集中选择出属性重要度最高的属性,再把它和待离散化的连续属性一起进行聚类学习,得到该连续属性的离散区间。文中介绍了该方法的算法描述,并通过实验与其他算法进行了比较。实验结果表明,由于这种方法在离散化过程中结合了粗集理论的思想,考虑了属性间的相互影响,从而产生了比较合理的划分点,提高了规则的分类精度。  相似文献   

14.
基于决策树学习中的测试生成及连续属性的离散化   总被引:10,自引:1,他引:10  
文中介绍并分析了基于决策树学习中的测试评价标准、测试生成机制及连续型属性的离散化等方法和实现技术.通过分析表明,在离散化过程中,采用信息熵最小化启发式能带来较好的效果.与二分离散化方法相比,采用多分离散化方法能从相同的实例集中构造出更好的决策树.  相似文献   

15.
基于聚类的连续值属性最佳离散化算法   总被引:4,自引:0,他引:4  
在机器学习和KDD研究中,大多数算法都以离散值为处理对象的,然而,在现实世界数据库中,存在着大量的连续值属性,因此,常常需要对地值属性进行离散化,本文提出一种基于聚类的 续值属最佳离散化算法。  相似文献   

16.
一种新的用于连续值属性离散化的约简算法   总被引:4,自引:0,他引:4  
针对在Nguyen和Skowron的离散化算法中进行启发式约简时会出现某些属性不能进行离散化问题,以及在无核数据集中启发式约简算法计算量比较大等问题,在粗糙集理论和属性频率函数的基础上给出一个新概念-候选核,并提出一种新的用于连续值属性离散化的约简算法-基于候选核的启发式约简算法(简称BCC)。该算法可以寻找到能对所有属性进行离散化的约简,实验表明,所提出的BCC算法能提高大数据集的离散化效果。  相似文献   

17.
基于Cramer’s V的连续属性离散化算法   总被引:1,自引:0,他引:1       下载免费PDF全文
郭启铭  樊玮 《计算机工程》2008,34(4):111-112
在类-属性相关离散化方法的基础上,提出一种基于Cramer’s V的连续属性离散化算法CVM,该方法利用统计学中的Cramer’s V来量化类-属性相关度,以保证离散后的类-属性相关度最大。与CADD和CAIM算法的实验比较以及对离散化后的数据进行C4.5分类测试,表明CVM算法性能良好,其离散化的数据明显地提高了分类器的预测精度。  相似文献   

18.
一种新的基于连续属性离散化的属性约简方法*   总被引:1,自引:0,他引:1  
通过将连续属性离散化和属性约简结合起来,首先对连续型的属性列进行离散化,得到新的决策表;然后再对新的决策表作属性约简,解决了属性约简过程中由于不考虑连续属性而无法求出准确约简属性的问题。最后通过具体案例表明了该方法具有较好的实用性、有效性,可以很好地应用在含有大量连续属性的数据挖掘项目中。  相似文献   

19.
提出一种基于改进粒子群优化的连续属性离散化算法。在算法优化方面,采用改进粒子群优化算法。为了克服传统粒子群优化的不足,对种群初始化和自适应调整粒子的惯性权重,提高了粒子群优化算法的全局寻优能力。在粗糙集属性离散化方面,主要是通过将最小断点集作为优化目标,粗糙集属性依赖度作为约束条件。仿真结果表明,该方法能有效地解决决策表连续属性离散化问题,计算速度快,收敛性好。  相似文献   

20.
一种基于熵的连续属性离散化算法   总被引:6,自引:0,他引:6  
贺跃  郑建军  朱蕾 《计算机应用》2005,25(3):637-638
连续属性离散化的关键在于合理确定离散化划分点的个数和位置。为了提高无监督离散化的效率,给出一种基于熵的连续属性离散化方法。该方法利用连续属性的信息量 (熵 )的特性,通过对连续属性变量的自身划分,最小化信息熵的减少和区间数,并寻求熵的损失与适度的区间数之间的最佳平衡,以便得到优化的离散值。实验表明该算法是行之有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号