首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
互信息是一种常用的特征选择评价函数,但研究表明它会导致分类精度相对较低.文中针对互信息倾向选择低频词的不足,提出了一种新的特征评价函数TFMIIE,将信息熵和改进互信息相结合,其中改进互信息能够避免偏向低频的生僻词,而特征熵有利于去除类别不确定的特征词.实验结果表明,采用TFMIIE进行特征选择,用得到的特征子集表示文本和构建分类器,文本分类的准确率与召回率比采用互信息的方法提高了约40%,验证了所提出的基于改进互信息和信息熵的文本特征选择方法是有效的.  相似文献   

2.
苏映雪  付耀文  黎湘 《电光与控制》2007,14(3):12-15,18
Filter特征选择算法具有通用性强、算法复杂度低的特点,但对某一个具体的分类器选择的特征子集也许并不是最优的;Wrapper方法与其相反,对特定的分类器可以找到最优的特征子集,但算法复杂度很高.研究一种Filter与Wrapper相结合的混合型算法.首先从特征对样本分类效果的角度提出互补系数的概念,然后基于ReliefF评估和互补系数,提出ReCom算法.实验证明,由ReCom算法得到的特征子集与ReliefF算法得到的特征子集相比具有更好的性能,并且与传统Wrapper方法相比,该算法大大降低了时间复杂度.  相似文献   

3.
提出了基于优化的随机子空间分类集成算法CEORS,该算法通过运用封装式特征选择和LSA降维两种方法对随机选择的特征子集进行了优化,并运用优化的特征子空间进行分类器的集成.实验结果表明,基于优化特征子空间的集成分类器性能优于Bagging和AdaBoost.  相似文献   

4.
现有图像分类大都采用单一特征,不能利用多个特征之间性能互补优势,且将特征选择与分类器构造分割开来,影响图像分类的精度和分类器的泛化能力。针对以上问题提出一种基于混沌二进制粒子群算法(CBPSO)的特征选择和SVM参数同步优化方法,利用图像的综合特征,将特征选择和SVM分类器构造结合同步优化,仿真实验结果表明,该算法能同步找出最优的特征子集和合适的SVM参数,提高了图像分类精度和分类器泛化能力。  相似文献   

5.
针对生物组学数据高维小样本的特点而引起的分类误差较大的问题,提出了一种带约束小生境二进制粒子群优化的集成特征选择方法。该方法利用二进制粒子群优化算法搜索分类准确率最高的特征子集,通过约束粒子编码的置位个数以限制选择特征个数,并加入多模优化中的小生境技术使算法能够一次获得多个差异度较大的特征子集,最后采用集成学习技术将基于多特征子集建立的基分类器集成为强分类器并对数据进行分类学习。实验结果表明,该特征选择方法在生物组学数据上能够稳定选择较少特征并获得较好分类性能。   相似文献   

6.
刘云  肖雪  黄荣乘 《信息技术》2020,(5):28-31,36
特征选择是机器学习和数据挖掘中处理高维数据的初步步骤,通过消除冗余或不相关的特征来识别数据集中最重要和最相关的特征,从而提高分类精度和降低计算复杂度。文中提出混合蒙特卡罗树搜索特征选择算法(HMCTS),首先,根据蒙特卡罗树搜索方法迭代生成一个初始特征子集,利用ReliefF算法过滤选择前k个特征形成候选特征子集;然后,利用KNN分类器的分类精度评估候选特征,通过反向传播将模拟结果更新到迭代路径上所有选择的节点;最后,选择高精度的候选特征作为最佳特征子集。仿真结果表明,对比HPSO-LS和MOTiFS算法,HMCTS算法具有良好的可扩展性,且分类精度高。  相似文献   

7.
特征选取和参数设置是提升支持向量机分类器的效果的两个主要手段.为了将两者结合起来,实现同步优化,以达到更好的分类效果,设计了一种基于粒子群算法的分类器优化算法.新算法对粒子采用2进制编码的,设计适合的目标函数,同步进行特征选择和支持向量机参数的优化.经过对比验证,新方法能够更加准确的得到待分类数据的特征子集跟支持向量机参数,最终得到更优的处理结果.  相似文献   

8.
《现代电子技术》2019,(9):60-64
针对恶意网址检测系统的特征选择和降维问题,基于特征选择方法的优化结果提出多种特征子集。利用基于分类器的准确率和召回率等性能评价指标,采用随机森林、贝叶斯网络、J48、随机树机器学习方法,对信息增益、卡方校验、信息增益率、基于Relief值、基于OneR分类器、基于关联性规则、基于相关性等多种特征选择算法所确定的特征子集进行检测。结果表明,除基于相关性特征选择算法确定的特征子集外,其他方法确定的特征子集均具有良好的分类性能,其中基于关联性规则选择的特征子集的维度仅为5,但各分类器基于此特征子集的分类准确率均高达99%以上。  相似文献   

9.
网络流量特征选择方法中的分治投票策略研究   总被引:1,自引:0,他引:1       下载免费PDF全文
特征选择作为机器学习过程中的预处理步骤,是影响分类性能的关键因素.网络流量具有数据量大,特征维度高的特点,如何快速提取特征子集,并提高分类效率对于基于机器学习的流量分类方法具有重要意义.本文提出基于分治与投票策略的特征提取方法,将数据集分裂为多个子集,分别执行特征提取算法,利用投票方法获得最后的特征子集.实验表明可有效提高特征提取的时间效率,同时使分类器取得良好的分类准确率.  相似文献   

10.
基于相像系数的雷达辐射源信号特征选择   总被引:10,自引:0,他引:10  
提出一种基于相像系数(RC)的特征选择新方法,给出了RC的定义和基于RC的类别可分离性判据,描述了 基于RC和量子遗传算法的雷达辐射源信号特征选择算法,设计了神经网络分类器,并将该方法与基于距离准则的顺序前 进法(SFSDC)和吕铁军的方法(GADC)作了特征选择和分类识别的对比实验。结果表明,本文方法无需事先指定最优特征 子集的维数,能可靠有效地选择出最佳特征子集,不仅大大降低了特征向量的维数,简化了分类器的设计,而且获得了比 原始特征集、SFSDC和GADC更高的正确识别率和识别效率。  相似文献   

11.
韩亮  杨婷  蒲秀娟  黄谦 《电子与信息学报》2021,43(11):3319-3326
阿尔茨海默症(AD)分类有助于在AD早期阶段及时采取针对性的治疗和干预措施,对降低老年群体的AD发病率和延缓AD疾病进展具有重要意义。该文提出一种改进的高斯模糊逻辑特征选择方法,首先采用互信息量和方差齐性分析两种方法给出特征重要性评分并分别进行归一化,然后使用改进的高斯模糊逻辑方法对其加权得到最终的特征重要性评分,最后依据特征重要性评分选取特征。该文还使用逻辑回归、随机森林、LightGBM、支持向量机和深度前馈网络作为初级分类器,多项式朴素贝叶斯分类器作为次级分类器,构建异质集成分类器,利用选取的特征进行AD分类。在TADPOLE数据集上进行实验,实验结果证实了所提特征选择方法是有效的,且采用所提特征选择方法,基于多项式朴素贝叶斯的异质集成分类器在AD分类上的性能要优于传统分类器。  相似文献   

12.
Feature selection is one of the important topics in text classification. However, most of existing feature selection methods are serial and inefficient to be applied to massive text data sets. In this ease, a feature selection method based on parallel collaborative evolutionary genetic algorithm is presented. The presented method uses genetic algorithm to select feature subsets and takes advantage of parallel collaborative evolution to enhance time efficiency, so it can quickly acquire the feature subsets which are more representative. The experimental results show that, for accuracy ratio and recall ratio, the presented method is better than information gain, x2 statistics, and mutual information methods; the consumed time of the presented method with only one CPU is inferior to that of these three methods, but the presented method is superior after using the parallel strategy.  相似文献   

13.
Li ZHANG  Cong WANG 《通信学报》2018,39(5):111-122
Feature selection has played an important role in machine learning and artificial intelligence in the past decades.Many existing feature selection algorithm have chosen some redundant and irrelevant features,which is leading to overestimation of some features.Moreover,more features will significantly slow down the speed of machine learning and lead to classification over-fitting.Therefore,a new nonlinear feature selection algorithm based on forward search was proposed.The algorithm used the theory of mutual information and mutual information to find the optimal subset associated with multi-task labels and reduced the computational complexity.Compared with the experimental results of nine datasets and four different classifiers in UCI,the proposed algorithm is superior to the feature set selected by the original feature set and other feature selection algorithms.  相似文献   

14.
波段选择是重要的高光谱图像降维手段。为了达到降维的目的,提出结合K-L散度和互信息的无监督波段选择算法,并进行了理论分析和实验验证。首先选出信息熵最大的波段作为初始波段,然后将散度与互信息量的比值定义为联合散度互信息(KLMI)准则,选择KLMI值大且信息量也大的波段加入波段子集中,选出信息量大且相似度低的波段集合,最终利用k最近邻分类算法实现了基于最大方差主成分分析算法、聚类算法、互信息算法和本文中方法的真实高光谱数据分类实验。结果表明,本文中的算法总体分类精度和κ系数均达到0.8以上,高于其它算法;大多数地物的分类精度均得到提升,具有较好的分类性能。该算法是一种实用的高光谱图像降维算法。  相似文献   

15.
The main aim of this study is to select the optimal set of genes from microarray cancer datasets that contribute to the prediction of specific cancer types. This study proposes the enhancement of the feature selection filter algorithm based on Joe's normalized mutual information and its use for gene selection. The proposed algorithm is implemented and evaluated on seven benchmark microarray cancer datasets, namely, central nervous system, leukemia (binary), leukemia (3 class), leukemia (4 class), lymphoma, mixed lineage leukemia, and small round blue cell tumor, using five well‐known classifiers, including the naive Bayes, radial basis function network, instance‐based classifier, decision‐based table, and decision tree. An average increase in the prediction accuracy of 5.1% is observed on all seven datasets averaged over all five classifiers. The average reduction in training time is 2.86 seconds. The performance of the proposed method is also compared with those of three other popular mutual information–based feature selection filters, namely, information gain, gain ratio, and symmetric uncertainty. The results are impressive when all five classifiers are used on all the datasets.  相似文献   

16.
We propose a hybrid algorithm for finding a set of nondominated solutions of a multi objective optimization problem. In the proposed algorithm, a local search procedure is applied to each solution (i.e., each individual) generated by genetic operations. Our algorithm uses a weighted sum of multiple objectives as a fitness function. The fitness function is utilized when a pair of parent solutions are selected for generating a new solution by crossover and mutation operations. A local search procedure is applied to the new solution to maximize its fitness value. One characteristic feature of our algorithm is to randomly specify weight values whenever a pair of parent solutions are selected. That is, each selection (i.e., the selection of two parent solutions) is performed by a different weight vector. Another characteristic feature of our algorithm is not to examine all neighborhood solutions of a current solution in the local search procedure. Only a small number of neighborhood solutions are examined to prevent the local search procedure from spending almost all available computation time in our algorithm. High performance of our algorithm is demonstrated by applying it to multi objective flowshop scheduling problems  相似文献   

17.
This article performs a detailed data scrutiny on a chronic kidney disease (CKD) dataset to select efficient instances and relevant features. Data relevancy is investigated using feature extraction, hybrid outlier detection, and handling of missing values. Data instances that do not influence the target are removed using data envelopment analysis to enable reduction of rows. Column reduction is achieved by ranking the attributes through feature selection methodologies, namely, extra-trees classifier, recursive feature elimination, chi-squared test, analysis of variance, and mutual information. These methodologies are ranked via Technique for Order of Preference by Similarity to Ideal Solution (TOPSIS) using weight optimization to identify the optimal features for model building from the CKD dataset to facilitate better prediction while diagnosing the severity of the disease. An efficient hybrid ensemble and novel similarity-based classifiers are built using the pruned dataset, and the results are thereafter compared with random forest, AdaBoost, naive Bayes, k-nearest neighbors, and support vector machines. The hybrid ensemble classifier yields a better prediction accuracy of 98.31% for the features selected by extra tree classifier (ETC), which is ranked as the best by TOPSIS.  相似文献   

18.
针对复杂场景下目标检测和目标检测中特征选择问题,该文将二值粒子群优化算法(BPSO)用于特征选择,结合支持向量机(SVM)技术提出了一种新颖的基于BPSO-SVM特征选择的自动目标检测算法。该算法将目标检测转化为目标识别问题,采用wrapper特征选择模型,以SVM为分类器,通过样本训练分类器,根据分类结果,利用BPSO算法在特征空间中进行全局搜索,选择最优特征集进行分类。基于BPSO-SVM的特征选择方法降低了特征维数,显著提高了分类器性能。实验结果表明,该文算法不仅有效提高了复杂场景下目标姿态、尺度、光照变化和局部被遮挡时的检测准确率,还大大缩短了检测时间。  相似文献   

19.
基于聚类分析的软件胎记特征选择   总被引:1,自引:0,他引:1       下载免费PDF全文
罗养霞  房鼎益 《电子学报》2013,41(12):2334-2338
软件胎记选择关系着软件的识别率.本文应用约束聚类分析软件特征,基于互信息度量特征的类内和类间距离,以同类和异类软件特征构建信息增益函数和惩罚函数,选择出具有高的类区分信息和最小冗余的软件胎记特征.通过分析和比较表明该算法为软件胎记特征的选择和优化提供了一种有效途径.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号