首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
特征选择方法主要包括过滤方法和绕封方法。为了利用过滤方法计算简单和绕封方法精度高的优点,提出一种组合过滤和绕封方法的特征选择新方法。该方法首先利用基于互信息准则的过滤方法得到满足一定精度要求的子集后,再采用绕封方法找到最后的优化特征子集。由于遗传算法在组合优化问题上的成功应用,对特征子集寻优采用了遗传算法。在数值仿真和轴承故障特征选择中,采用新方法在保证诊断精度的同时,可以节省大量选择时间。组合特征选择方法有较好的寻优特征子集的能力,能够节省选择时间,具有高效、高精度的双重优点。  相似文献   

2.
针对特征选择中降维效果与分类精度间的矛盾,通过分析传统的特征选择方法中的优点和不足,结合佳点集遗传算法的思想和K最近邻简单有效的分类特性,提出了基于佳点集遗传算法的特征选择方法.该算法对特征子集采用佳点集遗传算法进行随机搜索,并采用K近邻的分类错误率作为评价指标,淘汰不好的特征子集,保存较优的特征子集.通过实验比较看出,该算法可以有效地找出具有较高分类精度的特征子集,降维效果良好,具有较好的特征子集选择能力.  相似文献   

3.
针对高维小样本数据特征选择冗余度高和过拟合的问题,提出一种基于混合遗传算法与互信息分析的高维小样本特征选择算法。对互信息理论与特征选择问题进行深入分析,利用互信息消除特征冗余度能力强的优点,推理出基于互信息的目标函数和优化的边界条件;设计混合的遗传算法来充分利用高维小样本数据集不同角度的属性数据,混合遗传算法设立主种群和次种群,在每次迭代中利用次种群的结果引导主种群的演化,从而缓解小样本数据带来的过拟合问题。基于医学数据集的对比实验结果表明,该算法有效地增强了遗传算法的稳定性和鲁棒性,并且实现了较好的特征选择效果。  相似文献   

4.
特征选择已经是高维数据处理尤其是模式识别领域中的一个关键问题.提出一种混合特征选择模型用于从潜在的相关特征中选择那些最重要的特征.该模型包括两部分:filter部分与wrapper部分.在filter部分,4种不同的Filter方法分别对候选特征进行独立排序,在融合后进一步生成综合特征排序,综合排序随后产生遗传算法(GA)的初始种群.在wrapper部分,GA算法根据神经网络的分类准确率对个体(特征子集)进行评价,以便于搜索到最优的特征子集.测试结果表明,该模型不仅能有效地减少特征子集的大小,而且还可以进一步提高分类识别的准确率和效果.  相似文献   

5.
朱接文  肖军 《计算机应用》2014,34(9):2608-2611
针对大型数据中大量冗余特征的存在可能降低数据分类性能的问题,提出了一种基于互信息(MI)与模糊C均值(FCM)聚类集成的特征自动优选方法FCC-MI。首先分析了互信息特征及其相关度函数,根据相关度对特征进行排序;然后按照最大相关度对应的特征对数据进行分组,采用FCM聚类方法自动确定最优特征数目;最后基于相关度对特征进行了优选。在UCI机器学习数据库的7个数据集上进行实验,并与相关文献中提出的基于类内方差与相关度结合的特征选择方法(WCMFS)、基于近似Markov blanket和动态互信息的特征选择算法(B-AMBDMI)及基于互信息和遗传算法的两阶段特征选择方法(T-MI-GA)进行对比。理论分析和实验结果表明,FCC-MI不但提高了数据分类的效率,而且在有效保证分类精度的同时能自动确定最优特征子集,减少了数据集的特征数目,适用于海量、数据特征相关性大的特征约简及数据分析。  相似文献   

6.
传统基于互信息的特征选择方法较少考虑特征之间的关联,并且随着特征数的增加,算法复杂度过大,基于此提出了一种新的基于互信息的特征子集评价函数。该方法充分考虑了特征间如何进行协作,选择了较优的特征子集,改善了分类准确度并且计算负荷有限。实验结果表明,该方法与传统的MIFS方法相比较,分类准确度提高了3%~5%,误差减少率也有25%~30%的改善。  相似文献   

7.
特征选择是机器学习和数据挖掘领域的一个关键问题。而对于高维数据,通常会利用特定的评价准则,获取原始特征的权重并进行排序。而如何从排序后的特征集中选择较优子集,仍然值得探讨。文中提出了一种简单的特征排序后子集选取的过滤器方法,基本思想就是将指数熵与模糊特征评价指标相结合,利用类似顺序前向选择的搜索策略,通过寻找模糊特征评价指标的变化曲线拐点,作为搜索的终止条件。通过理论分析以及在合成和基准的现实数据集上的实验表明该方法具有较好的性能。  相似文献   

8.
函数型数据将观测到的数据作为一个整体,关注数据自身的内在结构而不只是数据的呈现形式,相较于传统的数据包含了更多的信息,因此对函数型数据的分析和研究具有重要的价值。在函数型数据分析中,特征选择也是一个需要解决的问题。提出了一种面向函数型数据的动态互信息(dynamic mutual information,DMI)特征选择方法,充分考虑数据的内在特征,运用互信息将特征进行排序和动态选择,不仅可以获得稳定的特征子集,而且充分考虑了样本在特征选择中的作用,较好地避免了信息的冗余。进一步提出了一种动态条件互信息(dynamic conditional mutual information,DCMI)特征选择方法,在动态特征选择的过程中,考虑到已选特征会对后续的特征选择产生影响,引入条件互信息,将已选特征对待选特征的影响进行量化表示,更恰当地描述特征与特征集合之间的关系。在UCR数据集上的实验结果表明,DMI方法和DCMI方法进行特征选择得到的特征子集规模小且分类精度高。  相似文献   

9.
沈奇 《计算机与现代化》2013,(2):147-149,193,222
基于案例推理是近年来人工智能领域内兴起的一种推理技术,推理指标特征的选择一直是该技术的热点和难点。为了在指标选择过程中得到较优的特征子集,本文结合灰色关联度分析和遗传算法优化特征的遴选过程,将灰色关联分析结果作为遗传算法的初始种群进行启发式搜索,一方面可以得到更优特征组合,另一方面有效减少了遗传算法的进化代数,提高了遗传算法运行效率。并基于此,提出优化的GA-CBR案例推理模型。实验结果表明,该模型有效提高了CBR预测准确性。  相似文献   

10.
针对传统特征选择方法如信息增益存在选择偏好、处理非线性问题能力弱、以及参数手动优化过程繁琐的问题, 提出一种基于最大互信息系数与皮尔逊相关系数的两阶段特征选择融合算法, 并利用遗传算法对其中两个超参数自动进行优化. 第一阶段, 利用最大互信息系数获取特征和标签之间的相关性来进行特征选择; 第二阶段, 使用皮尔逊相关系数对获取的特征子集进行去冗余. 进一步, 基于遗传算法对两个阶段中的两个超参数自动进行优化. 将该方法运用于多组UCI数据集中进行测试. 实验结果表明, 该算法能够兼顾降低特征空间的维度和提升算法的分类性能.  相似文献   

11.
针对高维度小样本数据在特征选择时出现的维数灾难和过拟合的问题,提出一种混合Filter模式与Wrapper模式的特征选择方法(ReFS-AGA)。该方法结合ReliefF算法和归一化互信息,评估特征的相关性并快速筛选重要特征;采用改进的自适应遗传算法,引入最优策略平衡特征多样性,同时以最小化特征数和最大化分类精度为目标,选择特征数作为调节项设计新的评价函数,在迭代进化过程中高效获得最优特征子集。在基因表达数据上利用不同分类算法对简化后的特征子集分类识别,实验结果表明,该方法有效消除了不相关特征,提高了特征选择的效率,与ReliefF算法和二阶段特征选择算法mRMR-GA相比,在取得最小特征子集维度的同时平均分类准确率分别提高了11.18个百分点和4.04个百分点。  相似文献   

12.
Normalized Mutual Information Feature Selection   总被引:6,自引:0,他引:6  
A filter method of feature selection based on mutual information, called normalized mutual information feature selection (NMIFS), is presented. NMIFS is an enhancement over Battiti's MIFS, MIFS-U, and mRMR methods. The average normalized mutual information is proposed as a measure of redundancy among features. NMIFS outperformed MIFS, MIFS-U, and mRMR on several artificial and benchmark data sets without requiring a user-defined parameter. In addition, NMIFS is combined with a genetic algorithm to form a hybrid filter/wrapper method called GAMIFS. This includes an initialization procedure and a mutation operator based on NMIFS to speed up the convergence of the genetic algorithm. GAMIFS overcomes the limitations of incremental search algorithms that are unable to find dependencies between groups of features.   相似文献   

13.
针对F-score特征选择算法不能揭示特征间互信息而不能有效降维这一问题,应用去相关的方法对F-score进行改进,利用德语情感语音库EMO-DB,在提取语音情感特征的基础上,根据支持向量机(SVM)的分类精度选择出分类效果最佳的特征子集。与F-score特征选择算法对比,改进后的算法实现了候选特征集较大幅度的降维,选择出了有效的特征子集,同时得到了较理想的语音情感识别效果。  相似文献   

14.
特征选择作为一种数据预处理技术被广泛研究,由于其具有NP难度而一直无法找到有效的求解方法。鉴于目前在特征选择中应用较多的遗传算法存在进化机制上的局限,将量子进化算法应用于特征选择,提出了一种基于改进量子进化算法的特征选择算法。以增加种群多样性和提高寻优性能为目标改进了量子进化算法,以Fisher比和特征维度为特征子集的评价准则构造了适应度函数,按照量子进化算法求解优化问题的步骤设计了特征选择算法。使用UCI数据库中的数据集对三种算法作对比验证,通过识别重要特征、提高学习算法性能、特征选择效率三组实验,结果表明,该算法能够识别出重要特征,并随着数据集特征维度升高,特征选择的性能逐渐优于对比算法,到了高维数据集,特征选择效率明显优于对比算法。  相似文献   

15.
提出了一种针对分类属性数据特征选择的新算法。通过给出一种能够直接评价分类属性数据特征选择的评价函数新定义,重新构造能实现分类属性数据信息量、条件互信息、特征之间依赖度定义的计算公式,并在此基础上,提出了一种基于互信息较大相关、较小冗余的特征选择(MRLR)算法。MRLR算法在特征选择时不仅考虑了特征与类标签之间的相关性,而且还考虑了特征之间的冗余性。大量的仿真实验表明,MRLR算法在针对分类属性数据的特征选择时,能获得冗余度小且更具代表性的特征子集,具有较好的高效性和稳定性。  相似文献   

16.
针对大量无关和冗余特征的存在可能降低分类器性能的问题,提出了一种基于近似Markov Blanket和动态互信息的特征选择算法。该算法利用互信息作为特征相关性的度量准则,并在未识别的样本上对互信息进行动态估值,利用近似Markov Blanket原理准确地去除冗余特征,从而获得远小于原始特征规模的特征子集。通过仿真试验证明了该算法的有效性。以支持向量机为分类器,在公共数据集UCI上进行了试验,并与DMIFS和ReliefF算法进行了对比。试验结果证明,该算法选取的特征子集与原始特征子集相比,以远小于原始特征规模的特征子集获得了高于或接近于原始特征集合的分类结果。  相似文献   

17.
A good feature selection method should take into account both category information and high‐frequency information to select useful features that can effectively display the information of a target. Because basic mutual information (BMI) prefers low‐frequency features and ignores high‐frequency features, clustering mutual information is proposed, which is based on clustering and makes effective high‐frequency features become unique, better integrating category information and useful high‐frequency information. Time is an important factor in topic detection and tracking (TDT). In order to improve the performance of TDT, time difference is integrated into clustering mutual information to dynamically adjust the mutual information, and then another algorithm called the dynamic clustering mutual information (DCMI) is given. In order to obtain the optimal subsets to display topics information, an objective function is proposed, which is based on the idea that a good feature subset should have the smallest distance within‐class and the largest distance across‐class. Experiments on TDT4 corpora using this objective function are performed; then, comparing the performances of BMI, DCMI, and the only existed topic feature selection algorithm Incremental Term Frequency‐Inverted Document Frequency (ITF‐IDF), these performance information will be displayed by four figures. Computation time of DCMI is previously lower than BMI and ITF‐IDF. The optimal normalized‐detection performance (Cdet)norm of DCMI is decreased by 0.3044 and 0.0970 compared with those of BMI and ITF‐IDF, respectively.  相似文献   

18.
多标签特征选择是应对数据维度灾难现象的主要方法之一,可以在降低特征维度的同时提高学习效率,优化分类性能。针对目前特征选择算法没有考虑标签间的相互关系,以及信息量的衡量范围存在偏差的问题,提出一种基于标签关系改进的多标签特征选择算法。首先引入对称不确定性对信息量进行归一化处理,然后用归一化的互信息量作为相关性的衡量方法,并据此定义标签的重要性权重,对依赖度和冗余度中的标签相关项进行加权处理;进而提出一种特征评分函数作为特征重要性的评价指标,并依次选择出评分最高的特征组成最佳特征子集。实验结果表明,与其他算法相比,该算法在提取出更加精确的低维特征子集后,不仅能够有效提高面向实体信息挖掘的多标签学习算法的性能,也能提高基于离散特征的多标签学习算法的效率。  相似文献   

19.
A new local search based hybrid genetic algorithm for feature selection   总被引:2,自引:0,他引:2  
This paper presents a new hybrid genetic algorithm (HGA) for feature selection (FS), called as HGAFS. The vital aspect of this algorithm is the selection of salient feature subset within a reduced size. HGAFS incorporates a new local search operation that is devised and embedded in HGA to fine-tune the search in FS process. The local search technique works on basis of the distinct and informative nature of input features that is computed by their correlation information. The aim is to guide the search process so that the newly generated offsprings can be adjusted by the less correlated (distinct) features consisting of general and special characteristics of a given dataset. Thus, the proposed HGAFS receives the reduced redundancy of information among the selected features. On the other hand, HGAFS emphasizes on selecting a subset of salient features with reduced number using a subset size determination scheme. We have tested our HGAFS on 11 real-world classification datasets having dimensions varying from 8 to 7129. The performances of HGAFS have been compared with the results of other existing ten well-known FS algorithms. It is found that, HGAFS produces consistently better performances on selecting the subsets of salient features with resulting better classification accuracies.  相似文献   

20.
一种新的基于多启发式的特征选择算法   总被引:25,自引:1,他引:24  
朱颢东  钟勇 《计算机应用》2009,29(3):849-851
在查询扩展方法中,如果通过查询结果中关键词的上下文来计算候选关键词的权重,将权重大的词作为查询扩展词,其候选关键词来源于文档中关键词的上下文,这种方法存在主题漂移的问题。为了解决这个问题,提出一种将初始查询结果过滤,只选择与源文档语境相似的搜索结果,来帮助选择查询扩展词的方法。实验结果表明该方法能获得更合适的查询扩展词。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号