首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
容忍噪音的特征子集选择算法研究   总被引:4,自引:0,他引:4  
特征子集选择问题一直是人工智能领域研究的重要内容,特别是近几年来,特征子集选择算法研究已经成为机器学习和数据挖掘等领域的研究热点,提出了一个新的特征子集选择算法-容忍噪音的特征子集选择算法(NFS),该算法将聚类的思想引入到噪音的处理,并将Gini系数和墨西哥帽函数应用于特征选取,实现对偏吸噪音数据集的特征子集选择,实际领域的实验结果表明,NFS算法具有噪音容忍度高,选择特征代表性强和求解速度快的优点,因此能够有效地应用于实际领域。  相似文献   

2.
基于粗集理论的特征子集选择算法   总被引:1,自引:1,他引:1  
1.引言长期以来,特征子集选择技术一直是机器学习领域中的关键难题之一。由于学习对象的多样性,尤其是新的系统随着应用的发展而不断涌现,使人们无法用某种特定的工具或方法来完全解决这一问题,新的特征子集选择技术仍然受到人们广泛关注。20世纪80年代初,波兰数学家Z.Pawlak提出一种新的理论工具——“粗集”,用于解决不完整和不精确信息的知识表达、学习及归纳等问题。这一理论的特点是:除了问题所需处理的数据之外,不需要额外提供任何外界信息或  相似文献   

3.
基于遗传算法的特征子集选择   总被引:15,自引:0,他引:15  
数据挖掘对象是大型数据库中的海量数据,而数据库中记录包含众多属性,由于其中存在的冗余和不相关属性降低了数据挖掘性能,增加了算法复杂性,因此,特征子集选择问题成为数据挖掘领域中的重要研究课题。该文根据过滤法思想,提出了基于遗传算法的特征子集选择算法,实验证明该算法获得了良好的收效性和稳定性。  相似文献   

4.
基于信息熵的特征子集选择启发式算法的研究   总被引:2,自引:0,他引:2  
特征子集选择问题是机器学习和模式识别中的一个重要问题,最优特征子集选择问题已被证明是NP难题。然而,目前的特征子集选择的启发式算法是基于正反例一致的,没有考虑到实际应用中的噪音数据影响,使得选择一个较好的特征子集非常困难,首先从统计学的角度分析了噪音对特征子集选择的影响,给出了含有错误率的一致特征子集概念,然后利用信息熵和拉普拉斯错误估计函数构造了特征子集选择启发式算法EFS。  相似文献   

5.
基于扩张矩阵的渐进式特征子集选择算法   总被引:2,自引:0,他引:2  
特征子集选择问题一直是人工智能领域研究的重要内容,特别是近几年来,特征子集选择的算法研究已经成为机器学习和数据挖掘等领域的一个研究热点。该文在扩张矩阵的基础上提出了类扩张矩阵的概念,并将加权的期望信息和不一致错误率函数应用于特征子集的选择,实现了具有噪音处理功能的渐进式特征子集选择算法———IFSS_EM,实际领域的实验结果表明:IFSS_EM算法具有运行效率高、选择特征较具有代表性的优点,从而使其能够较好地应用于实际领域。  相似文献   

6.
特征选择算法研究综述   总被引:8,自引:0,他引:8  
特征选择是当前信息领域,尤其是模式识别领域的研究热点.本文从不同角度对特征选择算法进行分类,概述特征选择技术发展的各个分支及发展态势,指出理论研究和实际应用中所存在的一些困难和亟待解决的问题.然后从算法实用性角度出发,结合机器学习的观点,探讨应用支持向量机技术进行特征选择的研究发展思路.  相似文献   

7.
考虑特征之间的相关性对于其类间区分能力的影响,提出了一种新的特征子集区分度衡量准则——DFS(Discernibility of Feature Subsets)准则.该准则考虑特征之间的相关性,通过计算特征子集中全部特征对于分类的联合贡献来判断特征子集的类间辨别能力大小,不再只考虑单个特征对于分类的贡献.结合顺序前向、顺序后向、顺序前向浮动和顺序后向浮动4种特征搜索策略,以支持向量机(Support Vector Machines,SVM)为分类工具,引导特征选择过程,得到4种基于DFS与SVM的特征选择算法.其中在顺序前/后向浮动搜索策略中,首先根据DFS准则加入/去掉特征到特征子集中,然后在浮动阶段根据所得临时SVM分类器的分类性能决定刚加入/去掉特征的去留.UCI机器学习数据库数据集的对比实验测试表明,提出的DFS准则是一种很好的特征子集类间区分能力度量准则;基于DFS与SVM的特征选择算法实现了有效的特征选择;与其他同类算法相比,基于DFS准则与SVM的特征选择算法具有非常好的泛化性能,但其所选特征子集的规模不一定是最好的.  相似文献   

8.
9.
本文对最优模糊值特征子集选取算法进行了改进,使其可以适用于多类最优模糊值特征子集选取,并且在选取第一个最优特征的时候引入了信息熵的方法,降低了算法的计算复杂度.利用选取的特征子集构造模糊决策树,实验数据说明这种改进算法是可行的.  相似文献   

10.
一种基于信息增益与费用评价函数的特征选择准则   总被引:5,自引:0,他引:5  
特征选择问题是机器学习和模式识别中的一个重要问题,然而,在实际应用中,由于没有将特征选择与特征提取过程统一考虑,只注重特征本身的分类性能,没有考虑特征提取的费用问题,导致识别系统的效率较低,文中从实际应用角度,提出一种新的特征选择准则,将分类性能与特征的提取费用统一考虑,利用信息增益与特征提取费用综合评价函数作为特征选择准则,并给出了启发式算法ECFS〈将算法应用于实际领域的学习问题并与决策树算  相似文献   

11.
一种最优特征集的选择算法   总被引:16,自引:0,他引:16  
文中在实例特征矩阵的基础上,提出了一个最优特征的启发式健算法,并对该算法的有效性进行了数据测试,给出了它与特征选择的贪心算法的比较结果。  相似文献   

12.
一种具有统计不相关性的最佳鉴别矢量集   总被引:39,自引:4,他引:39  
金忠  杨静宇  陆建峰 《计算机学报》1999,22(10):1105-1108
在模式识别领域,基于Fisher鉴别准则语数的Foley-Sammon最佳鉴别技术在着重大的影响,特征抽取的一般原则是最好抽取模式的不相关的特征,而Foley-Sammon最佳鉴别矢量集的诸鉴别特是统计相关的。  相似文献   

13.
非线性局部寻优时间弯曲校正及签名特征空间稳定性研究   总被引:7,自引:1,他引:7  
根据签名动态信息进行签名认证可以提高认证系统的安全性,它是在由签名动态信息的特征值张成的特征空间上的分类问题,然而,签名动态信息时间序列的时间弯曲现象使得特征值分离,不容易在特征空间上确定出真签名的特征值稳定的子空间,在签名样本数量小时尤为如此,因此提出一种非线性局部寻优时间弯曲校正方法,这具有较好的校正效果和较低的计算复要度,利用它对签名样本的动态信息时间序列进行校正,可以提高签名特征向量在特征空间上分布的聚扰性,拉开真,伪签名特征向量在特征空间上的距离,综合利用非线性局部寻优时间弯曲校正方法和线性时间弯曲校正方法对有限数量的标准签名样本进行处理,可在特征空间划分出不同置信度的特征稳定的子空间,以此满足不同安全程度认证的需要。  相似文献   

14.
传统的主分量分析方法(PCA)是最为经典的图像特征抽取方法之一,由于其本质上是在最小均方差意义下给出了模式样本的最优表示,所以它通常被作为对高维图像模式进行降维的一种常用方法.但就模式分类而言,这种表示并非是最有效的.首先从统计相关性的角度揭示了PCA抽取的特征本身就具有统计不相关的良好特性.然后通过引入一种新的最大散度差类别可分性判据,从而为在PCA抽取的特征中最优鉴别特征的选取提供了一种有效策略.最后,在AR标准人脸库上的实验结果验证了算法的有效性.  相似文献   

15.
基于BP神经网络的手写数字识别的算法   总被引:1,自引:0,他引:1  
由于BP神经网络具有并行处理信息、自组织、自学习信息等优点,本文采用了BP神经网络对手写数字识别进行运算,提取笔画密度、长宽比和欧拉数等特征作为训练样本.并用Matlab对其算法进行仿真,并且很准确的识别出来,说明其有非常广泛的前景.  相似文献   

16.
手写体数字有效鉴别特征的抽取与识别   总被引:5,自引:1,他引:5  
文中提出了基于后验概率估计的多特征多分类器组合识别的估计法,并提出了基于具有统计不相关性的最佳鉴别变换与KL变换抽取手写体数字的有效鉴别特征的方法。实验采用Concordia University CENPARMI手写体数字数据库。用最近邻距离分类器与最近邻相关分类器这两个分类器,对手写体数字的12个特征做多特征多分类器组合识别实验。实验结果表明:估计法优于常用的投票法与计分法,估计法的识别率高达  相似文献   

17.
VHDL语言高级综合子集的确立及其实现方法   总被引:7,自引:2,他引:7  
越来越多的高级综合系统采用或接受VHDL语言作为设计输入,但VHDL语言的语义本质是基于模拟而非基于高级综合的,许多语法现象不能或不适于进行综合。本文系统地分析了VHDL语言的可综合性问题,详细讨论了VHDL语言的各种语法现象的可综合性,并结合实际系统分析了VHDL语言高级综合子集的确立及实现方法。  相似文献   

18.
Automated discovery of concise predictive rules for intrusion detection   总被引:7,自引:0,他引:7  
This paper details an essential component of a multi-agent distributed knowledge network system for intrusion detection. We describe a distributed intrusion detection architecture, complete with a data warehouse and mobile and stationary agents for distributed problem-solving to facilitate building, monitoring, and analyzing global, spatio-temporal views of intrusions on large distributed systems. An agent for the intrusion detection system, which uses a machine learning approach to automated discovery of concise rules from system call traces, is described.

We use a feature vector representation to describe the system calls executed by privileged processes. The feature vectors are labeled as good or bad depending on whether or not they were executed during an observed attack. A rule learning algorithm is then used to induce rules that can be used to monitor the system and detect potential intrusions. We study the performance of the rule learning algorithm on this task with and without feature subset selection using a genetic algorithm. Feature subset selection is shown to significantly reduce the number of features used while improving the accuracy of predictions.  相似文献   


19.
Attribute-value based representations, standard in today's data mining systems, have a limited expressiveness. Inductive Logic Programming provides an interesting alternative, particularly for learning from structured examples whose parts, each with its own attributes, are related to each other by means of first-order predicates. Several subsets of first-order logic (FOL) with different expressive power have been proposed in Inductive Logic Programming (ILP). The challenge lies in the fact that the more expressive the subset of FOL the learner works with, the more critical the dimensionality of the learning task. The Datalog language is expressive enough to represent realistic learning problems when data is given directly in a relational database, making it a suitable tool for data mining. Consequently, it is important to elaborate techniques that will dynamically decrease the dimensionality of learning tasks expressed in Datalog, just as Feature Subset Selection (FSS) techniques do it in attribute-value learning. The idea of re-using these techniques in ILP runs immediately into a problem as ILP examples have variable size and do not share the same set of literals. We propose here the first paradigm that brings Feature Subset Selection to the level of ILP, in languages at least as expressive as Datalog. The main idea is to first perform a change of representation, which approximates the original relational problem by a multi-instance problem. The representation obtained as the result is suitable for FSS techniques which we adapted from attribute-value learning by taking into account some of the characteristics of the data due to the change of representation. We present the simple FSS proposed for the task, the requisite change of representation, and the entire method combining those two algorithms. The method acts as a filter, preprocessing the relational data, prior to the model building, which outputs relational examples with empirically relevant literals. We discuss experiments in which the method was successfully applied to two real-world domains.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号