首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 562 毫秒
1.
高麟  周宇  邝得互 《计算机应用》2024,(5):1408-1414
局部特征选择(LFS)方法将样本空间划分为多个局部区域,并为每个区域选择最优特征子集以反映局部异质信息。然而,现有的LFS方法以每个样本为中心划分局部区域并找到最优特征子集,导致优化效率低下且适用场景受限。为了解决这个问题,提出一种进化双层自适应局部特征选择(BiLFS)算法。LFS问题被建模为双层优化问题,特征子集和待优化局部区域是该问题的两个决策变量。在问题的上层,使用非支配排序遗传算法-Ⅱ求解被选择的局部区域的最优特征子集,区域纯度和被选择特征比率是目标函数;在问题的下层,根据上层求解的最优特征子集,首先使用局部区域聚类分析得到区域内的中心样本,然后通过局部区域融合消除非必要区域并更新必要区域的种群。在11个UCI数据集上的测试结果表明,相较于基于进化算法的非自适应LFS方法,BiLFS的平均分类准确率达到前者的98.48%,而平均所需计算用时仅为前者的9.51%,运算效率得到大幅提升,且达到基于线性规划的LFS方法的水准。对迭代过程中BiLFS算法选择的用于优化的局部区域进行可视化分析,结果表明,BiLFS选择必要局部区域具有稳定性和可靠性。  相似文献   

2.
数据的特征空间常随时间动态变化,而训练样本的数量固定不变,数据的特征空间在呈现超高维特点的同时通常伴随决策空间的类别不平衡问题.对此,文中提出基于最大决策边界的高维类不平衡数据在线流特征选择算法.借助邻域粗糙集模型,在充分考虑边界样本影响的基础上, 定义自适应邻域关系,设计基于最大决策边界的粗糙依赖度计算公式.同时,提出三种在线特征子集评估指标,用于选择在大类和小类之间具有强区分能力的特征.在 11 个高维类不平衡数据集上的实验表明,在相同的实验环境及特征数量下,文中算法综合性能较优.  相似文献   

3.
针对基于约束得分的特征选择容易受成对约束的组成和基数影响的问题, 提出了一种基于约束得分的动态集成选择算法(dynamic ensemble selection based on bagging constraint score, BCS-DES)。该算法将bagging约束得分(bagging constraint score, BCS)引入动态集成选择算法, 通过将样本空间划分为不同的区域, 使用多种群并行遗传算法为不同测试样本选择局部最优的分类集成, 达到提高分类精度的目的。在UCI实验数据集上进行的实验表明, BCS-DES算法较现有的特征选择算法受成对约束组成和基数影响更小, 效果更好。  相似文献   

4.
维度灾难是机器学习任务中的常见问题,特征选择算法能够从原始数据集中选取出最优特征子集,降低特征维度.提出一种混合式特征选择算法,首先用卡方检验和过滤式方法选择重要特征子集并进行标准化缩放,再用序列后向选择算法(SBS)与支持向量机(SVM)包裹的SBS-SVM算法选择最优特征子集,实现分类性能最大化并有效降低特征数量.实验中,将包裹阶段的SBS-SVM与其他两种算法在3个经典数据集上进行测试,结果表明,SBS-SVM算法在分类性能和泛化能力方面均具有较好的表现.  相似文献   

5.
一种近似Markov Blanket最优特征选择算法   总被引:4,自引:0,他引:4  
特征选择可以有效改善分类效率和精度,传统方法通常只评价单个特征,较少评价特征子集.在研究特征相关性基础上,进一步划分特征为强相关、弱相关、无关和冗余四种特征,建立起Markov Blanket理论和特征相关性之间的联系,结合Chi-Square检验统计方法,提出了一种基于前向选择的近似Markov Blanket特征选择算法,获得近似最优的特征子集.实验结果证明文中方法选取的特征子集与原始特征子集相比,以远小于原始特征数的特征子集获得了高于或接近于原始特征集的分类结果.同时,在高维特征空间的文本分类领域,与其它的特征选择方法OCFS,DF,CHI,IG等方法的分类结果进行了比较,在20 Newsgroup文本数据集上的分类实验结果表明文中提出的方法获得的特征子集在分类时优于其它方法.  相似文献   

6.
提出一种基于改进哈里斯鹰优化SVM和特征选择的恶意软件检测模型。为改进特征子集选取和SVM分类准确率,引入混沌映射、能量因子调节、最优解变异扰动和互利共生对HHO算法的初始种群结构、全局搜索与局部开采切换性能及跳离局部最优能力进行改进;利用改进算法优化SVM参数和特征子集选取,构建恶意软件检测模型。实验结果表明,改进算法在降低特征维度的同时可以有效提升分类准确率,利用高质量特征子集提升恶意软件检测模型的分类能力。  相似文献   

7.
特征选择是机器学习和数据挖掘领域中一项重要的数据预处理技术,它旨在最大化分类任务的精度和最小化最优子集特征个数。运用粒子群算法在高维数据集中寻找最优子集面临着陷入局部最优和计算代价昂贵的问题,导致分类精度下降。针对此问题,提出了基于多因子粒子群算法的高维数据特征选择算法。引入了进化多任务的算法框架,提出了一种两任务模型生成的策略,通过任务间的知识迁移加强种群交流,提高种群多样性以改善易陷入局部最优的缺陷;设计了基于稀疏表示的初始化策略,在算法初始阶段设计具有稀疏表示的初始解,降低了种群在趋向最优解集时的计算开销。在6个公开医学高维数据集上的实验结果表明,所提算法能够有效实现分类任务且得到较好的精度。  相似文献   

8.
针对传统鲸鱼优化算法(WOA)不能有效处理连续型数据、邻域粗糙集对噪声数据的容错性较差等问题,文中提出基于自适应WOA和容错邻域粗糙集的特征选择算法.首先,为了避免WOA过早陷入局部最优,基于迭代周期构建分段式动态惯性权重,改进WOA的收缩包围和螺旋捕食行为,设计自适应WOA.然后,为了解决邻域粗糙集对噪声数据缺乏容错性的问题,引入邻域内相同决策特征所占的比例,定义容错邻域上下近似集、容错近似精度和近似粗糙度、容错依赖度及容错近似条件熵.最后,基于容错邻域粗糙集构造适应度函数,使用自适应WOA,不断迭代以获取最优子群.高维数据集上采用费雪评分算法进行初步降维,降低算法的时间复杂度.在8个低维UCI数据集和6个高维基因数据集上的实验表明,文中算法可有效选择特征个数较少且分类精度较高的特征子集.  相似文献   

9.
一种高效的面向轻量级入侵检测系统的特征选择算法   总被引:9,自引:0,他引:9  
陈友  沈华伟  李洋  程学旗 《计算机学报》2007,30(8):1398-1408
特征选择是网络安全、模式识别、数据挖掘等领域的重要问题之一.针对高维数据对象,特征选择一方面可以提高分类精度和效率,另一方面可以找出富含信息的特征子集.文中提出一种wrapper型的特征选择算法来构建轻量级入侵检测系统.该算法采用遗传算法和禁忌搜索相混合的搜索策略对特征子集空间进行随机搜索,然后利用提供的数据在无约束优化线性支持向量机上的平均分类正确率作为特征子集的评价标准来获取最优特征子集.文中按照DOS,PROBE,R2L,U2R 4个类别对KDD1999数据集进行分类,并且在每一类上进行了大量的实验.实验结果表明,对每一类攻击文中提出的特征选择算法不仅可以加快特征选择的速度,而且基于该算法构建的入侵检测系统在建模时间、检测时间、检测已知攻击、检测未知攻击上,与没有运用特征选择的入侵检测系统相比具有更好的性能.  相似文献   

10.
在许多实际应用中,数据经常呈现高维不平衡特征,特征还根据需求在不同时间段动态生成.基于此种情况,文中提出基于邻域粗糙集的高维类不平衡数据的在线流特征选择算法.算法设计基于小类重要度的粗糙依赖度计算公式,同时,提出在线相关性分析、在线冗余度分析、在线重要度分析三种策略,用于选择在大类和小类之间具有高可分离性的特征.在7个高维类不平衡数据集上的实验表明,文中算法可以有效选择一个较好的特征子集,性能较优.  相似文献   

11.
Feature selection is an important preprocessing step in pattern recognition and machine learning, and feature evaluation arises as key issues in the construction of feature selection algorithms. In this study, we introduce a new concept of neighborhood evidential decision error to evaluate the quality of candidate features and construct a greedy forward algorithm for feature selection. This technique considers both the Bayes error rate of classification and spatial information of samples in the decision boundary regions.Within the decision boundary regions, each sample xi in the neighborhood of x provides a piece of evidence reflecting the decision of x so as to separate the decision boundary regions into two subsets: recognizable and misclassified regions. The percentage of misclassified samples is viewed as the Bayes error rate of classification in the corresponding feature subspaces. By minimizing the neighborhood evidential decision error (i.e., Bayes error rate), the optimal feature subsets of raw data set can be selected. Some numerical experiments were conducted to validate the proposed technique by using nine UCI classification datasets. The experimental results showed that this technique is effective in most of the cases, and is insensitive to the size of neighborhood comparing with other feature evaluation functions such as the neighborhood dependency.  相似文献   

12.
Support vector machines (SVMs) are a class of popular classification algorithms for their high generalization ability. However, it is time-consuming to train SVMs with a large set of learning samples. Improving learning efficiency is one of most important research tasks on SVMs. It is known that although there are many candidate training samples in some learning tasks, only the samples near decision boundary which are called support vectors have impact on the optimal classification hyper-planes. Finding these samples and training SVMs with them will greatly decrease training time and space complexity. Based on the observation, we introduce neighborhood based rough set model to search boundary samples. Using the model, we firstly divide sample spaces into three subsets: positive region, boundary and noise. Furthermore, we partition the input features into four subsets: strongly relevant features, weakly relevant and indispensable features, weakly relevant and superfluous features, and irrelevant features. Then we train SVMs only with the boundary samples in the relevant and indispensable feature subspaces, thus feature and sample selection is simultaneously conducted with the proposed model. A set of experimental results show the model can select very few features and samples for training; in the mean time the classification performances are preserved or even improved.  相似文献   

13.
Typical feature selection methods select a global feature subset that is applied over all regions of the sample space. In localized feature selection (LFS), each region of the sample space is associated with its own optimized feature subset. This allows the feature subset to adapt to local variations in the sample space. Feature subsets are selected such that within a localized region, within‐class distances are minimized and between‐class distances are maximized. LFS outperforms global feature selection methods. LFS is solved using a randomized rounding approach when weights of regions are fixed. Randomized rounding is a too time‐consuming algorithm. In this paper, we show that LFS has a closed‐form solution when weights of regions are fixed. Using this closed‐form solution can decrease the runtime of solving LFS substantially. Experimental results on real datasets confirm that the classification error rate of our proposed method and the randomized rounding‐based method are the same; the runtime of our proposed method is much better than that of the randomized rounding‐based method; and the classification error rate of our proposed method and the randomized rounding‐based method outperforms the state‐of‐the‐art feature selection methods.  相似文献   

14.
在已有的特征选择算法中,常用策略是通过相关准则选择与标记集合相关性较强的特征,然而该策略不一定是最优选择,因为与标记集合相关性较弱的特征可能是决定某些类别标记的关键特征.基于这一假设,文中提出基于局部子空间的多标记特征选择算法.该算法首先利用特征与标记集合之间的互信息得到一个重要度由高到低的特征序列,然后将新的特征排序空间划分为几个局部子空间,并在每个子空间设置采样比例以选择冗余性较小的特征,最后融合各子空间的特征子集,得到一组合理的特征子集.在6个数据集和4个评价指标上的实验表明,文中算法优于一些通用的多标记特征选择算法.  相似文献   

15.
特征选择旨在从原始特征空间中选择一组规模较小的特征子集,在分类学习任务中提供与原集合近似或更好的性能.文中提出基于信息粒化的多标记特征选择算法,融合标记权重与样本平均间隔,将改进的邻域信息熵应用到特征选择过程中.在6组数据集以及5个评价指标上的实验表明文中算法在分类上的有效性.  相似文献   

16.
基于粗集理论的特征子集选择算法   总被引:1,自引:1,他引:1  
1.引言长期以来,特征子集选择技术一直是机器学习领域中的关键难题之一。由于学习对象的多样性,尤其是新的系统随着应用的发展而不断涌现,使人们无法用某种特定的工具或方法来完全解决这一问题,新的特征子集选择技术仍然受到人们广泛关注。20世纪80年代初,波兰数学家Z.Pawlak提出一种新的理论工具——“粗集”,用于解决不完整和不精确信息的知识表达、学习及归纳等问题。这一理论的特点是:除了问题所需处理的数据之外,不需要额外提供任何外界信息或  相似文献   

17.
Feature selection plays an important role in the machine-vision-based online detection of foreign fibers in cotton because of improvement detection accuracy and speed. Feature sets of foreign fibers in cotton belong to multi-character feature sets. That means the high-quality feature sets of foreign fibers in cotton consist of three classes of features which are respectively the color, texture and shape features. The multi-character feature sets naturally contain a space constraint which lead to the smaller feature space than the general feature set with the same number of features, however the existing algorithms do not consider the space characteristic of multi-character feature sets and treat the multi-character feature sets as the general feature sets. This paper proposed an improved ant colony optimization for feature selection, whose objective is to find the (near) optimal subsets in multi-character feature sets. In the proposed algorithm, group constraint is adopted to limit subset constructing process and probability transition for reducing the effect of invalid subsets and improve the convergence efficiency. As a result, the algorithm can effectively find the high-quality subsets in the feature space of multi-character feature sets. The proposed algorithm is tested in the datasets of foreign fibers in cotton and comparisons with other methods are also made. The experimental results show that the proposed algorithm can find the high-quality subsets with smaller size and high classification accuracy. This is very important to improve performance of online detection systems of foreign fibers in cotton.  相似文献   

18.
数据挖掘中如何有效地从高维特征空间选择最优特征子集,很大程度上影响模型的预测结果,基于此本文提出一种复合适应性函数、多特征组合搜索的自适应性遗传算法。算法依据统计学原理对原始特征先行过滤构建特征候选集,使用多模型融合的交叉验证结果作为适应性函数以提高每轮进化的适应值,轮盘赌算法、定长基因段交叉算法、随机基因位点变异算法分别构成选择算子、交叉算子和变异算子。通过实验对比表明该遗传算法具有一定的稳定性和有效性,能够在原始特征空间中启发性的选择最优特征子集,从而提高数值型预测准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号