首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
特征选择作为一种数据预处理技术被广泛研究,由于其具有NP难度而一直无法找到有效的求解方法。鉴于目前在特征选择中应用较多的遗传算法存在进化机制上的局限,将量子进化算法应用于特征选择,提出了一种基于改进量子进化算法的特征选择算法。以增加种群多样性和提高寻优性能为目标改进了量子进化算法,以Fisher比和特征维度为特征子集的评价准则构造了适应度函数,按照量子进化算法求解优化问题的步骤设计了特征选择算法。使用UCI数据库中的数据集对三种算法作对比验证,通过识别重要特征、提高学习算法性能、特征选择效率三组实验,结果表明,该算法能够识别出重要特征,并随着数据集特征维度升高,特征选择的性能逐渐优于对比算法,到了高维数据集,特征选择效率明显优于对比算法。  相似文献   

2.
基于关联规则的特征选择算法   总被引:2,自引:0,他引:2  
关联规则能够发现数据库中属性之间的关联,通过优先选择短规则用于相关属性的选择,有可能得到最小的属性子集.基于此,本文提出一种基于关联规则的特征选择算法,实验结果表明在属性子集大小和分类精度上优于多种特征选择方法.同时,对支持度和置信度对算法效果的影响进行探索,结果表明高的支持度和置信度并不导致高的分类精度和小的特征子集,而充足的规则数是基于关联规则特征选择算法高效的必要条件.  相似文献   

3.
4.
杨震宇  叶军  季雨瑄  敖家欣  王磊 《计算机应用研究》2022,39(4):1118-1123+1131
目前已有蚁群算法优化的特征选择方法,大多采用的是以属性依赖度和信息熵属性重要度作为路径上启发搜索因子,但这类搜索方法在某些决策表中存在算法早熟或搜索到的特征子集包含了冗余特征,从而导致选择精度显著下降。针对此类问题,根据条件属性在分辨矩阵中的占比提出了一种属性重要度的度量方法,以分辨矩阵重要度作为路径上启发因子,设计了一种基于分辨矩阵与蚁群算法优化的特征子集搜索方法。该算法从特征核出发,蚁群依次选择概率大的特征加入特征核集,直至找到最小特征子集算法终止。通过实例验证和UCI数据集实验结果表明,与基于属性依赖度和信息熵属性重要度的特征选择方法相比,在通常情况下,该算法能较小代价找到最小特征子集,并且可以有效减少计算工作量。  相似文献   

5.
针对在数据挖掘过程中存在的维度灾难和特征冗余问题,本文在传统特征选择方法的基础上结合强化学习中Q学习方法,提出基于强化学习的特征选择算法,智能体Agent通过训练学习后自主决策得到特征子集.实验结果表明,本文提出的算法能有效的减少特征数量并有较高的分类性能.  相似文献   

6.
基于信息熵的特征子集选择启发式算法的研究   总被引:2,自引:0,他引:2  
特征子集选择问题是机器学习和模式识别中的一个重要问题,最优特征子集选择问题已被证明是NP难题。然而,目前的特征子集选择的启发式算法是基于正反例一致的,没有考虑到实际应用中的噪音数据影响,使得选择一个较好的特征子集非常困难,首先从统计学的角度分析了噪音对特征子集选择的影响,给出了含有错误率的一致特征子集概念,然后利用信息熵和拉普拉斯错误估计函数构造了特征子集选择启发式算法EFS。  相似文献   

7.
随着互联网和物联网技术的发展,数据的收集变得越发容易。但是,高维数据中包含了很多冗余和不相关的特征,直接使用会徒增模型的计算量,甚至会降低模型的表现性能,故很有必要对高维数据进行降维处理。特征选择可以通过减少特征维度来降低计算开销和去除冗余特征,以提高机器学习模型的性能,并保留了数据的原始特征,具有良好的可解释性。特征选择已经成为机器学习领域中重要的数据预处理步骤之一。粗糙集理论是一种可用于特征选择的有效方法,它可以通过去除冗余信息来保留原始特征的特性。然而,由于计算所有的特征子集组合的开销较大,传统的基于粗糙集的特征选择方法很难找到全局最优的特征子集。针对上述问题,文中提出了一种基于粗糙集和改进鲸鱼优化算法的特征选择方法。为避免鲸鱼算法陷入局部优化,文中提出了种群优化和扰动策略的改进鲸鱼算法。该算法首先随机初始化一系列特征子集,然后用基于粗糙集属性依赖度的目标函数来评价各子集的优劣,最后使用改进鲸鱼优化算法,通过不断迭代找到可接受的近似最优特征子集。在UCI数据集上的实验结果表明,当以支持向量机为评价所用的分类器时,文中提出的算法能找到具有较少信息损失的特征子集,且具有较高的分类精度...  相似文献   

8.
最优特征子集选择问题   总被引:73,自引:0,他引:73  
陈彬  洪家苯 《计算机学报》1997,20(2):133-138
机器学习和模式识别面临的一个重要问题,就是特征子集的选择问题,即从一个大的已生征特集合,选择一个子集合来一致地描述已知例。特别,最优特征子集选择问题,即最小的特征子集问题的 计算杂性至今学不清楚。  相似文献   

9.
容忍噪音的特征子集选择算法研究   总被引:4,自引:0,他引:4  
特征子集选择问题一直是人工智能领域研究的重要内容,特别是近几年来,特征子集选择算法研究已经成为机器学习和数据挖掘等领域的研究热点,提出了一个新的特征子集选择算法-容忍噪音的特征子集选择算法(NFS),该算法将聚类的思想引入到噪音的处理,并将Gini系数和墨西哥帽函数应用于特征选取,实现对偏吸噪音数据集的特征子集选择,实际领域的实验结果表明,NFS算法具有噪音容忍度高,选择特征代表性强和求解速度快的优点,因此能够有效地应用于实际领域。  相似文献   

10.
杨丰瑞 《计算机应用研究》2020,37(9):2625-2628,2633
高维复杂数据处理是数据挖掘领域中的关键问题,针对现有特征选择分类算法存在的预测精确度失衡、整体分类效率低下等问题,提出了一种结合概率相关性和极限随机森林的特征选择分类算法(P-ERF)。该算法使用充分考虑特征之间相关性与P值结合的特征选择方式,避免了树节点分裂过程中造成的冗余性问题;并以随机树为基分类器、极限随机森林为整体框架,使P-ERF算法获得了更高的精准度和更好的泛化误差。实验结果表明,P-ERF算法相较于随机森林算法、极限随机森林算法,在数据集分类精度与整体性方面均得到良好的效果。  相似文献   

11.
针对特征选择算法——relief在训练个别属性权值时的盲目性缺点,提出了一种基于自适应划分实例集的新算法——Q-relief,该算法改正了原算法属性选择时的盲目性缺点,选择出表达图像信息最优的特征子集来进行模式识别。将该算法应用于列车运行故障动态图像监测系统(TFDS)的故障识别,经实验验证,与其他算法相比,Q-relief算法明显提高了故障图像识别的准确率。  相似文献   

12.
针对2D-Gabor虹膜特征并不稳定,影响虹膜识别率的问题,提出了一种从多尺度、多方向2D-Gabor小波提取的虹膜特征中,筛选稳定特征应用于虹膜识别的方法。对虹膜图像采用多通道Gabor小波提取虹膜图像特征,然后通过自定义筛选准则从多维特征中筛选出最优特征参数并编码,用Hamming距进行特征匹配识别。基于CASIA虹膜图像库进行实验,结果表明该方法扩大了类内匹配与类间匹配之间的Hamming距,降低了等错率,同时降低了编码的长度,加快了特征匹配速度。  相似文献   

13.
满意特征选择及其应用   总被引:2,自引:0,他引:2  
实际应用中的特征选择是一个满意优化问题.针对已有特征选择方法较少考虑特征获取代价和特征集维数的自动确定问题,提出一种满意特征选择方法(SFSM),将样本分类性能、特征集维数和特征提取复杂性等多种因素综合考虑.给出特征满意度和特征集满意度定义,设计出满意度函数,导出满意特征集评价准则,详细描述了特征选择算法.雷达辐射源信号特征选择与识别的实验结果显示,SFSM在计算效率和选出特征的质量方面明显优于顺序前进法、新特征选择法和多目标遗传算法.证实了SFSM的有效性和实用性.  相似文献   

14.
针对多维数据集,为得到一个最优特征子集,提出一种基于特征聚类的封装式特征选择算法。在初始阶段,利用三支决策理论动态地将原始特征集划分为若干特征子空间,通过特征聚类算法对每个特征子空间内的特征进行聚类;从每个特征类簇里挑选代表特征,利用邻域互信息对剩余特征进行降序排序并依次迭代选择,使用封装器评估该特征是否应该被选择,可得到一个具有最低分类错误率的最优特征子集。在UCI数据集上的实验结果表明,相较于其它特征选择算法,该算法能有效地提高各数据集在libSVM、J48、Nave Bayes以及KNN分类器上的分类准确率。  相似文献   

15.
在文本分类中,特征空间维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍的现象。为了提高文本挖掘算法的运行速度,降低占用的内存空间,提出了一种基于优化的模拟退火算法的特征选择方法。在该方法中,为避免遗失当前最优解,增加了记忆功能,将当前最好的状态记忆下来,从而使得模拟退火算法成为一种智能化算法;设计了一个自适应温度更新函数,并设置双阈值使得在尽量保持最优性的前提下减少计算量,从而较快地获得较具代表性的特征子集。实验结果表明该方法是有效的。  相似文献   

16.
中文文本中,传统的n-grams特征选择加权算法(如滑动窗口法等)存在两点不足:在将每个词进行组合、生成n-grams特征之前必须对每篇文本调用分词接口。无法删除n-grams中的冗余词,使得冗余的n-grams特征对其他有用的n-grams特征产生干扰,降低分类准确率。为解决以上问题,根据汉语单、双字词识别研究理论,将文本转化为字矩阵。通过对字矩阵中元素进行冗余过滤和交运算得到n-grams特征,避免了n-grams特征中存在冗余词的情况,且不需对文本调用任何分词接口。在搜狗中文新闻语料库和网易文本语料库中的实验结果表明,相比于滑动窗口法和其他n-grams特征选择加权算法,基于字矩阵交运算的n-grams特征选择加权算法得到的n-grams特征耗时更短,在支持向量机(Support Vector Machine,SVM)中的分类效果更好。  相似文献   

17.
18.
Feature selection is used for finding a feature subset that has the most discriminative information from the original feature set. In practice, since we do not know the classifier to be used after feature selection, it is desirable to find a feature subset that is universally effective for any classifier. Such a trial is called classifier-independent feature selection. In this study, we propose a novel classifier-independent feature selection method on the basis of the estimation of Bayes discrimination boundary. The experimental results on 12 real-world datasets showed the fundamental effectiveness of the proposed method.  相似文献   

19.
对于现有的多源自适应学习方案无法有效区分多个源域中的有用信息并迁移至目标域的问题,提出一种具有特征选择的多源自适应分类框架(MACFFS),并将特征选择和共享特征子空间学习整合到统一框架中进行联合特征学习。具体来说,MACFFS将来自多个源域的特征数据投影至不同的潜在空间中来学习得到多个源域分类模型,实现目标域的分类。然后,将得到的多个分类结果进行整合用于目标域分类模型的学习。此外,框架还利用L2,1范数稀疏回归代替传统的基于L2范数的最小二乘回归来提高鲁棒性。最后,把多种现有方法在两项任务中与MACFFS进行实验比较分析。实验结果表明,与现有方法中表现最好的DSM相比,MACFFS节省了接近1/4的计算时间,并且提升了大约2%的识别率。总的来说,MACFFS结合了机器学习、统计学习等相关知识,为多源自适应方法提供了一个新的思路,且该方法在现实场景下的识别应用中比现有方法具有更好的性能。  相似文献   

20.
杜政霖  李云 《计算机应用》2017,37(3):866-870
针对既有历史数据又有流特征的全新应用场景,提出了一种基于组特征选择和流特征的在线特征选择算法。在对历史数据的组特征选择阶段,为了弥补单一聚类算法的不足,引入聚类集成的思想。先利用k-means方法通过多次聚类得到一个聚类集体,在集成阶段再利用层次聚类算法对聚类集体进行集成得到最终的结果。在对流特征数据的在线特征选择阶段,对组构造产生的特征组通过探讨特征间的相关性来更新特征组,最终通过组变换获得特征子集。实验结果表明,所提算法能有效应对全新场景下的在线特征选择问题,并且有很好的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号