首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
本文提出一种基于极大连通子图的相关度属性选择算法,该算法利用极大连通子图求解方法得到最优属性子集,该属性子集满足相关度要求并且尽可能多地保留数据集中包含的信息。论文结合选定的分类算法验证该属性选择算法的应用效果,实验表明,该属性选择算法在分类算法的数据预处理过程中可明显提高分类准确率,与利用贪婪搜索策略的基于相关度的属性选择算法相比,应用该算法的分类算法准确率更高。  相似文献   

2.
属性选择是提高分类器性能的一种有效的方法.然而已有的属性选择算法要么假设数据无噪声,要么没有考虑属性间的交互作用,不能用于数据集中既有噪声又存在属性交互作用的情况.提出一种基于信息熵的属性选择算法,该算法用条件熵来评价属性子集对目标概念的描述能力,利用后向删除搜索策略进行属性选择.同时,根据不一致实例和关联规则中提升度的概念,给出噪声数据的定义和识别方法.该算法和典型的属性选择算法在10个UCI标准数据集上的对比实验结果表明,提出的算法在减少属性数量的同时将C4.5和NaiveBayes的平均分类精度分别提高了2.77%和3.42%.  相似文献   

3.
针对传统K-NN算法易受单个属性干扰和时间效率较低的问题,提出了利用信息增益和可拓关联度对其进行改进。通过计算属性的信息增益来确定属性的权重系数,根据权重系数将属性划分为关键属性、次要属性和无关属性,在计算欧氏距离时引入权重系数,使各个属性的作用受其重要性的约束,有效地提高了K-NN算法的抗干扰能力和精确性。将属性空间划分为若干个子空间,利用可拓关联度将待测样本映射到某个子空间中,由这个子空间组成搜索空间,减少计算量,提高时间效率;测试结果表明,改进后的算法可行有效。  相似文献   

4.
罗帆  蒋瑜 《计算机应用研究》2024,41(4):1047-1051
针对现有邻域粗糙集模型中存在属性权重都相同,无法保证关键属性在属性约简时能够被保留的问题,提出了一种基于信息熵加权的属性约简算法。首先,采用了类间熵、类内熵策略,以最大化类间熵最小化类内熵为原则给属性赋予权重;其次,构造了基于加权邻域关系的加权邻域粗糙集模型;最后,基于依赖关系评估属性子集的重要性,从而实现属性约简。在基于UCI数据集上与其他三种属性约简算法进行对比实验,结果表明,该算法能够有效去除冗余,提高分类精度。  相似文献   

5.
粗糙集中找到最小属性约简是一个NP-hard问题,本文根据知识信息熵的定义和性质,定义属性重要性,分析其性质,得出核的求法,给出约简的判定定理,提出了一种基于信息熵的属性约简算法。该算法采用启发式搜索法,先计算属性重要性,求得核,再以核为起点,以属性重要性大小为启发式信息,选择属性,求得最小约简。理论分析和实际计算表明,该算法简明有效。  相似文献   

6.
提出一种改进的神经网络属性选择方法。该方法用敏感度分析法对初始属性集中的属性进行排序,剔除次要属性实现降维,用BP神经网络进行属性选择以找到最小属性集。仿真结果表明该方法效果良好。  相似文献   

7.
一种改进的决策树分类属性选择方法   总被引:2,自引:0,他引:2       下载免费PDF全文
分析了ID3算法的基本原理、实现步骤及现有两种改进分类算法的优缺点,针对ID3算法的取值偏向问题和现有两种改进算法在分类时间、分类精确度方面存在的不足,提出了一种新的分类属性选择方案,并利用数学知识对其进行了优化。经实验证明,优化后的方案克服了ID3算法的取值偏向问题,同时在分类时间及分类精确度方面优于ID3算法及现有两种改进的分类算法。  相似文献   

8.
一种基于信息增益及遗传算法的特征选择算法   总被引:8,自引:0,他引:8  
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象,特征选择一方面可以提高分类精度和效率,另一方面可以找出富含信息的特征子集。针对此问题,本文提出一种综合了filter模型及wrapper模型的特征选择方法,首先基于特征之间的信息增益进行特征分组及筛选,然后针对经过筛选而精简的特征子集采用遗传算法进行随机搜索,并采用感知器模型的分类错误率作为评价指标。实验结果表明,该算法可有效地找出具有较好的线性可分离性的特征子集,从而实现降维并提高分类精度。  相似文献   

9.
基于信息熵的一种属性约简算法   总被引:2,自引:3,他引:2  
文章针对Rough Set理论的核心内容之一属性约简进行了研究。结合信息论的有关知识,研究了在属性约简过程中决策属性集相对条件属性集的条件熵的变化规律,在此基础上提出了新的属性约简算法。实验分析表明,在多数情况下这种算法都能够得到决策表的最小约简,同时还对算法复杂度做了简单的分析。  相似文献   

10.
属性选择可以有效地去除属性集中的冗余属性,降低分类算法的计算量,提高分类算法的泛化能力。以往的属性选择算法复杂度较高或者容易陷入局部最优解或者过多地依赖于随机因素。提出一种基于核函数参数优化的属性选择算法,该算法首先构建一个与属性相关联的核函数,核函数中的参数个数与属性个数一致,参数取值为0或1,对应着属性的取舍,然后通过交叉验证方法进行核函数参数的确定。该算法有效地将属性选择问题转化为核函数参数确定问题。在文本分类数据集上的仿真实验表明该算法可以较快较好实现属性选择,提高分类算法的性能。  相似文献   

11.
一种基于关联性的特征选择算法   总被引:1,自引:0,他引:1  
目前在文本分类领域较常用到的特征选择算法中,仅仅考虑了特征与类别之间的关联性,而对特征与特征之间的关联性没有予以足够的重视.提出一种新的基于关联分析的特征选择算法,该方法以信息论量度为基本工具,综合考虑了计算代价以及特征评估的客观性等问题.算法在保留类别相关特征的同时识别并摒弃了冗余特征,取得了较好的约简效果.  相似文献   

12.
基于TFIDF文本特征加权方法的改进研究   总被引:2,自引:0,他引:2  
针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。  相似文献   

13.
信息增益方法从整个训练集角度进行特征赋权,该模式不适合构造类别特征向量.通过改进的朴素贝叶斯方法选择类别特征用于构造类别向量,再利用词频信息改进信息增益模型用于文本特征选择,改善了信息增益模型对于中频词信息利用不足问题,提出一种基于类别的文本特征加权改进模型.随后的文本分类试验表明,提出的加权模型相比较于传统的信息增益方法具有较好的文本分类效果.  相似文献   

14.
针对如何选定PCA特征空间维数的问题,提出了一种基于改进混沌遗传算法的特征选择方法.改进的混沌遗传算法采用两种不同规则的混沌映射,维持了种群的多样性,增强了算法的全局搜索能力.利用改进的混沌遗传算法对PCA变换后的特征向量进行选择,可以快速搜索到最有利于分类的特征子空间.仿真实验表明,该方法不但降低了特征空间的维数,而且获得了比采用其它方法更好的识别性能.  相似文献   

15.
特征选择算法(TFFS)存有一定的不足:集中度难于正确衡量低频繁特征项的权值;分散度忽略了互信息为负数的特征项对文本分类的影响。提出一种改进的特征选择算法(TFFSL),TFFSL对集中度、分散度做了一定的改进,避免了TFFS的缺陷,同时TFFSL结合特征项长度信息,提高了短语和词语在分类中的作用。SVM分类实验结果表明:与TFFS相比,TFFSL有更高的文本分类性能和剔除无关特征项的能力。  相似文献   

16.
传统的ReliefF算法使用二值法不能体现离散特征差异大小,且不能去除冗余特征。针对这种情况提出了mRMR-ReliefF特征选择算法。该算法利用概率弥补特征差异度量上的不足,提出新的差异函数。此函数使提取出的特征更能体现文本的类内相关性和类间差异性。该算法还结合了词间相关性。词间相关性在考虑选择和类别相关性大的特征词的同时还考虑了特征冗余的消除。通过三种算法的对比实验,表明该算法为文本分类提供了更有效的特征子集。  相似文献   

17.
经典NEDI(New Edge-directed Interpolation)算法计算插值系数时使用矩形模板,存在不能兼顾模板内像素方向性的缺陷,而且在插值时仅使用单一窗口,可能导致高低分辨率上协方差不满足几何对偶性,造成插值后图像边缘存在比较明显的振铃现象,影响视觉质量。针对该问题,采用中心位于待插值点的圆形模板计算插值系数,并进一步依据最小均方差判决准则提出一种自适应多窗口选择方法来确定最佳的插值窗口。实验结果表明,相对于传统的插值方法,该算法能够更好地保持边缘信息,插值结果具有良好的视觉效果,峰值信噪比也得到了明显提高。  相似文献   

18.
模糊决策粗糙集是决策粗糙集理论在模糊集环境下的重要延伸,然而该模型对含噪声的数据不具有很好的容忍性。为此在传统的模糊相似关系中引入一个限定阈值,提出一种改进的模糊相似关系。在其基础上对原始的模糊决策粗糙集进行重构,提出一种改进的模糊决策粗糙集模型。根据不同的特征选择方式,利用所提出的改进模型设计出两种搜索策略的最小化决策代价特征选择算法。实验分析表明,该算法比传统算法具有更高的优越性。  相似文献   

19.
单目视觉SLAM算法容易受场景纹理影响出现初始化失败或者相机轨迹漂移的问题.为此,提出一种基于改进ORB特征的单目视觉SLAM算法.对输入视频帧构建高斯金字塔提取FAST特征,综合考虑特征点的灰度信息与其邻域的梯度信息生成描述子,并采用多网格策略划分特征点邻域,凭借改进的特征点降低运动模型算法的迭代次数,达到较好的时间...  相似文献   

20.
网络故障与网络告警事件之间存在着必然的关系.在分析故障传播和告警模式的基础上,将同一故障引发的告警事件区别为根源事件和并发事件,通过对隐藏在海量事件中的根源事件与并发事件相关度的统计,发现每一类故障的相关事件类集合,并以此作为关联规则,进行事件关联处理,能够正确地进行故障定位,有效过滤冗余事件,为故障原因分析提供依据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号