首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
一种基于熵的连续属性离散化算法   总被引:6,自引:0,他引:6  
贺跃  郑建军  朱蕾 《计算机应用》2005,25(3):637-638
连续属性离散化的关键在于合理确定离散化划分点的个数和位置。为了提高无监督离散化的效率,给出一种基于熵的连续属性离散化方法。该方法利用连续属性的信息量 (熵 )的特性,通过对连续属性变量的自身划分,最小化信息熵的减少和区间数,并寻求熵的损失与适度的区间数之间的最佳平衡,以便得到优化的离散值。实验表明该算法是行之有效的。  相似文献   

2.
基于相对熵的决策表连续属性离散化算法   总被引:3,自引:0,他引:3  
该文提出了一种新的决策表连续属性离散化算法.首先使用相对熵来度量条件属性的重要性;;并据此对条件属性按照属性重要性从小到大排序;;然后按排序后的顺序;;考察每个条件属性的所有断点;;将冗余的断点去掉;;从而将条件属性离散化.该算法易于理解;;计算简单;;算法的时间复杂性为O(3kn2)。  相似文献   

3.
陈思  郭躬德 《福建电脑》2009,25(2):16-17
在机器学习和数据挖掘领域,数值属性离散化是一个重要的研究课题.本文对现有的基于粗糙集理论的数值属性离散化算法进行了较深入的研究,客观地评价它们的优缺点.并在此基础上针对Naive Scaler数值属性离散化算法及其现有的改进算法的不足,提出了一种新的Naive Scaler算法的改进算法,最后通过算法示例验证了该算法的有效性和可行性.  相似文献   

4.
使用信息论的方法进行连续属性的离散化,引入Hellinger偏差HD(Hellinger Divergence)作为每个区间对决策的信息量度量,从而定义切分点的信息熵,最终的离散化结果是使各区间的信息量尽可能平均,分析了HD度量在两种离散化方法中的作用,说明它在划分算法中运用比较理想,而在归并算法中则有局限。  相似文献   

5.
基于信息熵的粗糙集连续属性离散化算法   总被引:60,自引:0,他引:60  
谢宏  程浩忠  牛东晓 《计算机学报》2005,28(9):1570-1574
该文提出了一种新的粗糙集连续属性离散化算法.首先对每一个候选断点定义了信息熵,以此作为对断点重要性的量度,在此基础上给出了断点选择的粗糙集连续属性离散化算法.最后采用多组数据对此算法的性能进行了检验,并与其它算法做了对比实验.实验结果表明此算法是有效的,而且当候选断点个数增多时仍有很高的计算效率.  相似文献   

6.
郭启铭  樊玮 《计算机工程》2008,34(4):111-112,115
在类一属性相关离散化方法的基础上,提出一种基于Cramer’s V的连续属性离散化算法CVM,该方法利用统计学中的Cramer’s V来量化类一属性相关度,以保证离散后的类一属性相关度最大。与CADD和CAIM算法的实验比较以及对离散化后的数据进行C4.5分类测试,表明CVM算法性能良好,其离散化的数据明显地提高了分类器的预测精度。  相似文献   

7.
数值属性的离散化对于事务的构成有重要的意义,本文给出了数值属性的总体描述,并针对网络性能数据的离散化设计了多种方法。  相似文献   

8.
随着知识发现和数据挖掘的迅速发展,出现了很多的数据挖掘方法,这些方法很多都依赖于离散的数据,连续属性的离散化是数据分析预处理中的一项重要内容,在数据挖掘、机器学习等领域中具有重要作用。然而,在现实世界数据库中,存在着大量的连续值属性。因此,常常需要对连续值属性进行离散化本文利用LVQ神经网络能够找到连续属性断点的功能,提出了一种基于LVQ神经网络的离散化方法,从而实现了对连续属性的离散化。算法分析和实验证明,本算法是切实可行的。  相似文献   

9.
为了解决数据挖掘和机器学习领域中连续属性离散化问题,提出一种改进的自适应离散粒子群优化算法。将连续属性的断点集合作为离散粒子群,通过粒子间的相互作用最小化断点子集,同时引入模拟退火算法作为局部搜索策略,提高了粒子群的多样性和寻找全局最优解的能力。利用粗糙集理论中决策属性对条件属性的依赖度来衡量决策表的一致性,从而达到连续属性离散化的目的,最后采用多组数据对此算法的性能进行了检验,并与其他算法做了对比实验,实验结果表明此算法是有效的。  相似文献   

10.
为解决混合属性中数值属性与分类属性相似性度量的差异造成的聚类效果不佳问题,分析混合属性聚类相似性度量的问题,提出基于熵的混合属性聚类算法.引入熵离散化技术将数值属性离散化,仅使用二元化距离度量混合属性对象之间的相似性,在聚类过程中随机选取k个初始簇中心,将其它对象按照距离k个簇中心的最小距离划分到相应的簇中,选择每个簇...  相似文献   

11.
目前粗糙集的研究局限于有限集,且现有的邻域粗糙集属性约简算法中属性重要性度量方式单一。针对邻域粗糙集存在的问题,提出了基于无限集的邻域近似条件熵模型。该模型以邻域近似条件熵下的属性重要度为启发条件,构造了一种基于邻域近似条件熵的前向贪心搜索属性约简算法。利用熵的单调性,证明了算法的正确性,并分析了算法的时间复杂度。通过实例分析和多个UCI数据集上的实验表明,所提出的算法是可行的,能有效减少属性数量,与现有的算法相比,不仅能够获得较小的属性约简结果,而且具有较好的分类性能。  相似文献   

12.
属性频率划分和信息熵离散化的决策树算法   总被引:2,自引:0,他引:2       下载免费PDF全文
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,节点划分属性选择的度量直接影响决策树分类的效果。基于粗糙集的属性频率函数方法度量属性重要性,并用于分枝划分属性的选择和决策树的预剪枝,提出一种决策树学习算法。同时,为了能处理数值型属性,利用数据集的统计性质为启发式知识,提出了一种改进的数值型属性信息熵离散化算法。实验结果表明,新的离散化方法计算效率有明显提高,新的决策树算法与基于信息熵的决策树算法相比较,结构简单,且能有效提高分类效果。  相似文献   

13.
从一种扩展的信息观的角度出发,讨论了Rough集理论的信息论观点。提出了一种基于扩展的信息熵的决策表核属性计算算法.并设计了以属性重要性为启发信息的自下而上的决策表属性约简算法EIEAAR。同时针对不一致表,将属性对不相客对象的包含值作为第二标准选择属性以加快约简速度。EIEAAR算法能处理一致和不一致决策表,并将核属性计算和非核属性约简统一起来。最后,对算法进行复杂度分析并用实例验证算法的有效性。实验表明该算法能有效得到决策表的最小约简。  相似文献   

14.
罗帆  蒋瑜 《计算机应用研究》2024,41(4):1047-1051
针对现有邻域粗糙集模型中存在属性权重都相同,无法保证关键属性在属性约简时能够被保留的问题,提出了一种基于信息熵加权的属性约简算法。首先,采用了类间熵、类内熵策略,以最大化类间熵最小化类内熵为原则给属性赋予权重;其次,构造了基于加权邻域关系的加权邻域粗糙集模型;最后,基于依赖关系评估属性子集的重要性,从而实现属性约简。在基于UCI数据集上与其他三种属性约简算法进行对比实验,结果表明,该算法能够有效去除冗余,提高分类精度。  相似文献   

15.
在系统熵的基础上,定义了一种新的属性重要度并提出了一种基于改进系统熵的粗糙集属性约简算法,实验分析表明,该属性重要度为启发式信息进行的属性约简,取得了理想效果。  相似文献   

16.
基于属性值信息熵的KNN改进算法   总被引:3,自引:0,他引:3       下载免费PDF全文
为了克服传统KNN算法,距离加权-KNN算法在距离定义及投票方式上的不足,提出了一种基于属性值对类别重要性的改进算法Entropy-KNN。首先定义两个样本间的距离为相同属性值的平均信息熵,此距离可通过重要属性值有效度量样本之间的相似程度,其次算法Entropy-KNN根据上述定义的距离选取与待测试样本距离最小的K个近邻,最后根据各类近邻样本点的平均距离及个数判断待测试样本的类别。在蘑菇数据集上的实验表明,Entropy-KNN算法的分类准确率高于传统KNN算法和距离加权KNN算法。  相似文献   

17.
基于系统熵属性约简的差别矩阵方法   总被引:1,自引:0,他引:1       下载免费PDF全文
在已有的相对属性约简算法中,差别矩阵方法是一种设计属性约简的常用方法。基于系统熵的属性约简是一种新型的属性约简,对于这种属性约简,目前还没有差别矩阵方法去设计其属性约简算法。为此,首先构造了一种新的差别矩阵,同时给出了该差别矩阵的属性约简定义,然后证明了基于新差别矩阵的属性约简与基于系统熵的属性约简是等价的。最后用新差别矩阵设计了一个基于系统熵属性算法,并用实例说明了新算法。  相似文献   

18.
目前基于Rough集的离散化算法很难做到高效率和高识别率兼顾,针对粗糙集给出了基于逐级均值聚类的信息熵的离散化算法。首先使用改进的逐级均值聚类算法分别对单个属性的候选断点按其信息熵值进行聚类分析,生成新的规模更小的候选断点集,然后用基于信息熵的离散化算法完成断点的选取并对连续值属性进行离散化。实验结果表明,该方法在识别率相当的情况下比传统的离散化方法的时间代价更低。  相似文献   

19.
熊宁欣  王应明 《计算机应用》2018,38(10):2801-2806
针对证据推理方法框架下属性权重难以获取的问题,提出一种基于改进模糊熵和证据推理的多属性决策方法。首先,定义证据推理信度决策矩阵框架下的三角函数模糊熵公式,并证明了其满足熵的四个公理化定义。其次,所提方法能够同时处理属性权重完全未知和属性权重信息部分已知两种情况:当属性权重完全未知时,基于信度框架下的改进模糊熵和熵权法的基本思想计算属性权重;当属性权重信息部分已知时,定义加权模糊熵,建立期望模糊熵最小的线性规划模型求解最优属性权重。最后,利用证据推理算法融合方案属性值,结合期望效用理论得到方案排序结果。通过实例计算,并与传统模糊熵计算方法进行比较分析,验证了所提方法能够更加充分地反映原始决策信息,更具客观性和一般性。  相似文献   

20.
针对基于正域的属性约简算法在约简过程中存在重复计算属性相对重要度从而导致算法效率低的问题,从属性度量和搜索策略的角度提出基于知识粗糙熵的快速属性约简算法。首先,在决策信息系统中通过引入知识距离提出知识粗糙熵以度量知识的粗糙程度;其次,利用知识粗糙熵作为属性显著度的评价标准来评估单个属性的重要程度;最后,利用属性重要度对所有条件属性进行排序,且通过属性依赖度删除冗余属性,从而实现快速约简。在六个公开数据集上将所提算法与其他三种算法在运行效率和分类精度上进行对比实验。结果表明,该算法的运行效率比其他三种算法分别提高了83.24%、28.77%和59.92%;在三种分类器中,分类精度分别平均提高了0.83%、0.63%和1.37%。因此,所提算法在保证分类性能的同时,能以更快的速度获得约简。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号