首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
基于最大信息系数和近似马尔科夫毯的特征选择方法   总被引:6,自引:0,他引:6  
最大信息系数(Maximum information coefficient,MIC)可以对变量间的线性和非线性关系,以及非函数依赖关系进行有效度量.本文首先根据最大信息系数理论,提出了一种评价各维特征间以及每维特征与类别间相关性的度量标准,然后提出了基于新度量标准的近似马尔科夫毯特征选择方法,删除冗余特征.在此基础上提出了基于特征排序和近似马尔科夫毯的两阶段特征选择方法,分别对特征的相关性和冗余性进行分析,选择有效的特征子集.在UCI和ASU上的多个公开数据集上的对比实验表明,本文提出的方法总体优于快速相关滤波(Fast correlation-based filter,FCBF)方法,与ReliefF,FAST,Lasso和RFS方法相比也具有优势.  相似文献   

2.
随着信息技术的快速发展,数据中的高维特征极大地增加了产生冗余特征的可能性,冗余特征不仅导致搜索空间增大,而且影响了分类的准确率。针对现有的特征选择算法难以解决高维特征选择问题,提出了基于样本重叠与近似马尔可夫毯的特征选择算法(samples overlapping based modified Markov blanket, SOMMB)。该算法首先融合最大信息系数与改进强近似马尔可夫毯去除冗余特征;其次采用样本重叠策略指导前向搜索的过程,选取相关特征。该算法在10个公开数据集上与目前流行的PGVNS、FCBF-MIC、CFS、mRMR、RF、CBFS、ReliefF以及FFSG算法进行对比实验,SOMMB算法的平均准确率为82.519%,对比FFSG获得的最高准确率提升了4.214%,表明SOMMB算法可以提高分类精度。  相似文献   

3.
因果特征选择算法(也称为马尔科夫边界发现)学习目标变量的马尔科夫边界,选择与目标存在因果关系的特征,具有比传统方法更好的可解释性和鲁棒性.文中对现有因果特征选择算法进行全面综述,分为单重马尔科夫边界发现算法和多重马尔科夫边界发现算法.基于每类算法的发展历程,详细介绍每类的经典算法和研究进展,对比它们在准确性、效率、数据依赖性等方面的优劣.此外,进一步总结因果特征选择在特殊数据(半监督数据、多标签数据、多源数据、流数据等)中的改进和应用.最后,分析该领域的当前研究热点和未来发展趋势,并建立因果特征选择资料库(http://home.ustc.edu.cn/~xingyuwu/MB.html),汇总该领域常用的算法包和数据集.  相似文献   

4.
特征选择是机器学习和数据挖掘领域中一项重要的数据预处理技术,它旨在最大化分类任务的精度和最小化最优子集特征个数。运用粒子群算法在高维数据集中寻找最优子集面临着陷入局部最优和计算代价昂贵的问题,导致分类精度下降。针对此问题,提出了基于多因子粒子群算法的高维数据特征选择算法。引入了进化多任务的算法框架,提出了一种两任务模型生成的策略,通过任务间的知识迁移加强种群交流,提高种群多样性以改善易陷入局部最优的缺陷;设计了基于稀疏表示的初始化策略,在算法初始阶段设计具有稀疏表示的初始解,降低了种群在趋向最优解集时的计算开销。在6个公开医学高维数据集上的实验结果表明,所提算法能够有效实现分类任务且得到较好的精度。  相似文献   

5.
特征的相关和冗余,会直接影响随机森林随机抽取特征的质量,导致随机森林的收敛性减弱,降低随机森林模型的准确度、泛化能力及性能。基于此,提出一种融合近似马尔科夫毯的随机森林优化算法,该算法利用近似马尔科夫毯构建相似特征组,再从每个相似组中按比例抽取特征形成单棵决策树的特征子集,重复上述过程直至达到随机森林规模。该算法可以在保证随机森林特征的多样性前提下,利用近似马尔科夫毯消除特征间的相关性和冗余性,提高随机抽取特征的质量。通过在12组不同维度UCI数据集实验对比表明:融合近似马尔科夫毯的随机森林在一定程度上可以消除特征相关性和冗余性,提高模型的各项评价指标,泛化能力增强,更适用于高维数据。  相似文献   

6.
为了解决ReliefF算法随机抽样会抽取到不具代表性的样本且未考虑特征间相关性的问题,提出基于冗余性分析的ReliefF特征选择算法。首先改进ReliefF的抽样策略,其次将特征权重序列划分为几个子集,分别利用最大信息系数及Pearson系数共同衡量特征相关性,设置相应采样比例剔除冗余特征。将改进算法与其他特征选择算法进行对比,结果表明相较于传统ReliefF,在LightGBM(Light Gradient Boosting Machine,轻量级梯度提升机器学习)上的分类准确率可提升0.63%~12.10%,在SVM(Support Vector Machine,支持向量机)上的分类准确率可提升0.92%~9.06%,改进算法的分类准确率明显优于其他几种特征选择算法,在考虑特征与标签相关性的同时,能有效剔除冗余信息。  相似文献   

7.
基于粗集理论的特征子集选择算法   总被引:1,自引:1,他引:1  
1.引言长期以来,特征子集选择技术一直是机器学习领域中的关键难题之一。由于学习对象的多样性,尤其是新的系统随着应用的发展而不断涌现,使人们无法用某种特定的工具或方法来完全解决这一问题,新的特征子集选择技术仍然受到人们广泛关注。20世纪80年代初,波兰数学家Z.Pawlak提出一种新的理论工具——“粗集”,用于解决不完整和不精确信息的知识表达、学习及归纳等问题。这一理论的特点是:除了问题所需处理的数据之外,不需要额外提供任何外界信息或  相似文献   

8.
翟俊海    刘博  张素芳 《智能系统学报》2017,12(3):397-404
特征选择是指从初始特征全集中,依据既定规则筛选出特征子集的过程,是数据挖掘的重要预处理步骤。通过剔除冗余属性,以达到降低算法复杂度和提高算法性能的目的。针对离散值特征选择问题,提出了一种将粗糙集相对分类信息熵和粒子群算法相结合的特征选择方法,依托粒子群算法,以相对分类信息熵作为适应度函数,并与其他基于进化算法的特征选择方法进行了实验比较,实验结果表明本文提出的方法具有一定的优势。  相似文献   

9.
葛倩  张光斌  张小凤 《计算机应用》2022,42(10):3046-3053
为解决特征选择ReliefF算法在利用欧氏距离选取近邻样本过程中,算法稳定性差以及选取的特征子集分类准确率低的问题,提出了一种利用最大信息系数(MIC)作为近邻样本选择标准的MICReliefF算法;同时,以支持向量机(SVM)模型的分类准确率作为评价指标,并多次寻优,以自动确定其最优特征子集,从而实现MICReliefF算法与分类模型的交互优化,即MICReliefF-SVM自动特征选择算法。在多个UCI公开数据集上对MICReliefF-SVM算法的性能进行了验证。实验结果表明,MICReliefF-SVM自动特征选择算法不仅可以筛除更多的冗余特征,而且可以选择出具有良好稳定性和泛化能力的特征子集。与随机森林(RF)、最大相关最小冗余(mRMR)、相关性特征选择(CFS)等经典的特征选择算法相比,MICReliefF-SVM算法具有更高的分类准确率。  相似文献   

10.
将情感识别中的特征选择看成组合优化问题,从四种生理信号EMG、ECG、RSP、SC中抽取统计特征,将参数可调的遗传算法和K-近邻算法相结合尝试找出最能"代表"某一情感状态joy、anger、sadness、pleasure的最优情感特征组合模式.仿真表明,该方法是有效的.  相似文献   

11.
一种近似Markov Blanket最优特征选择算法   总被引:4,自引:0,他引:4  
特征选择可以有效改善分类效率和精度,传统方法通常只评价单个特征,较少评价特征子集.在研究特征相关性基础上,进一步划分特征为强相关、弱相关、无关和冗余四种特征,建立起Markov Blanket理论和特征相关性之间的联系,结合Chi-Square检验统计方法,提出了一种基于前向选择的近似Markov Blanket特征选择算法,获得近似最优的特征子集.实验结果证明文中方法选取的特征子集与原始特征子集相比,以远小于原始特征数的特征子集获得了高于或接近于原始特征集的分类结果.同时,在高维特征空间的文本分类领域,与其它的特征选择方法OCFS,DF,CHI,IG等方法的分类结果进行了比较,在20 Newsgroup文本数据集上的分类实验结果表明文中提出的方法获得的特征子集在分类时优于其它方法.  相似文献   

12.
针对大量无关和冗余特征的存在可能降低分类器性能的问题,提出了一种基于近似Markov Blanket和动态互信息的特征选择算法。该算法利用互信息作为特征相关性的度量准则,并在未识别的样本上对互信息进行动态估值,利用近似Markov Blanket原理准确地去除冗余特征,从而获得远小于原始特征规模的特征子集。通过仿真试验证明了该算法的有效性。以支持向量机为分类器,在公共数据集UCI上进行了试验,并与DMIFS和ReliefF算法进行了对比。试验结果证明,该算法选取的特征子集与原始特征子集相比,以远小于原始特征规模的特征子集获得了高于或接近于原始特征集合的分类结果。  相似文献   

13.
针对传统特征选择方法如信息增益存在选择偏好、处理非线性问题能力弱、以及参数手动优化过程繁琐的问题,提出一种基于最大互信息系数与皮尔逊相关系数的两阶段特征选择融合算法,并利用遗传算法对其中两个超参数自动进行优化.第一阶段,利用最大互信息系数获取特征和标签之间的相关性来进行特征选择;第二阶段,使用皮尔逊相关系数对获取的特征子集进行去冗余.进一步,基于遗传算法对两个阶段中的两个超参数自动进行优化.将该方法运用于多组UCI数据集中进行测试.实验结果表明,该算法能够兼顾降低特征空间的维度和提升算法的分类性能.  相似文献   

14.
本文对最优模糊值特征子集选取算法进行了改进,使其可以适用于多类最优模糊值特征子集选取,并且在选取第一个最优特征的时候引入了信息熵的方法,降低了算法的计算复杂度.利用选取的特征子集构造模糊决策树,实验数据说明这种改进算法是可行的.  相似文献   

15.
针对2种主流的基于马尔科夫毯(Markov Blanket)和基于信息理论(Information-theoretic)的特征选择策略无法有效解决具有反馈机制的多层网络下的问题,提出一种面向反馈多层网络的因果特征选择方法。该方法首先利用D-separation准则找到目标节点T的邻居节点,即邻居特征Ne(T),然后对目标节点与其余特征求互信息,找出互信息靠前的且不被集合Ne(T)中元素D-separation的特征集合R,最后合并Ne(T)和R即为目标节点对应的特征。该方法有效地避免了基于马尔科夫毯的在反馈网络下特征选择错误和多层网络下最大互信息的特征选择错误的问题。与2种经典的策略在大型电力营销系统中典型告警预测进行对比,相较于主流的特征选择方案,实验结果均表明该方法对于电力营销系统的预测告警特征选择更加有效。  相似文献   

16.
入侵检测系统面临的主要问题是计算量大,特征选择被引入解决这一问题。针对现有方法的缺点,利用改进的粒子群算法来搜索最优特征子集,提出了一种基于混合CatfishPSO和最小二乘支持向量机的特征选择方法,利用混合的CatfishBPSO和CatfishPSO选择特征子集并同步对LSSVM的参数进行优化,最后建立了一个基于该特征选择方法的入侵检测模型。在KDD Cup 99数据集上进行的实验结果表明该模型的检测性能较高。  相似文献   

17.
在数据挖掘中,由于数据集中含有大量的冗余和不相关的特征,因此特征选择是一个重要的预处理过程。提出了一个基于混合互信息和粒子群算法的过滤式-封装式的多目标特征选择方法(HMIPSO)。根据粒子的pbest距离上次更新的迭代次数,提出了自适应突变策略去扰动种群,避免种群陷入局部最优。同时基于帕累托前沿面和外部文档提出了一个新的集合概念。结合互信息和新的集合知识提出了一个局部搜索策略,使得帕累托前沿面中的粒子可以删除不相关和冗余的特征,然后通过精英策略更新学习前和学习后的帕累托前沿面。最后将提出的算法和另外4种多目标算法在15个UCI数据集上进行了测试,实验结果表明提出的算法能够更好地降低特征个数和分类错误率。  相似文献   

18.
特征选择指在保持数据分类性能不变的同时,选出不含冗余特征的特征子集。粗糙超立方体方法可从特征相关度、依赖度和重要度这3方面对特征子集进行综合评估,已成功用于特征选择。特征子集组合的计算是一个NP-难问题,而传统的前向搜索策略只能得到局部最优结果。因此,本文设计了一种新的离散粒子群优化与粗糙超立方体方法相结合的算法。该算法首先引入相关度用以生成一组粒子,然后对粗糙超立方体方法的目标函数改进后作为优化函数,最后由粒子群迭代优化,找到最优的特征子集。实验结果表明,相比传统粗糙超立方体方法和采用粒子群优化的粗糙集方法,本文算法能够得到具有更小特征数量和更高分类性能的特征子集。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号