首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
基于L1范数凸包数据描述的多观测样本分类算法   总被引:1,自引:0,他引:1  
为建立高维空间样本分布的最佳覆盖为目标来实现覆盖分类,该文提出基于L1范数凸包数据描述的多观测样本分类算法。首先对训练集的每个类别以及测试集的多观测样本分别构造凸包模型,这样多观测样本的分类就转化为凸包模型的相似性度量问题。若测试集的凸包模型与训练集无重叠,采用L1范数距离测度进行凸包模型之间的相似性度量;若有重叠,采用L1范数距离测度进行收缩凸包(reduced convex hulls)之间的相似性度量。然后采用最近邻准则作为多观测样本的分类决策。在3个数据库上进行的实验结果,表明该文提出方法对于多观测样本分类具有可行性和有效性。  相似文献   

2.
一种模糊-证据kNN分类方法   总被引:3,自引:0,他引:3       下载免费PDF全文
吕锋  杜妮  文成林 《电子学报》2012,40(12):2390-2395
 已有的以k-最近邻(k Nearest Neighbor,kNN)规则为核心的分类算法,如模糊kNN(Fuzzy kNN,FkNN)和证据kNN (Evidential kNN,EkNN)等,存在着两个问题:无法区别出样本特征的差异以及忽略了邻居距训练样本类中心距离的不同所带来的影响.为此,本文提出一种模糊-证据kNN算法.首先,利用特征的模糊熵值确定每个特征的权重,基于加权欧氏距离选取k个邻居;然后,利用邻居的信息熵区别对待邻居并结合FkNN在表示信息和EkNN在融合决策方面的优势,采取先模糊化再融合的方法确定待分类样本的类别.本文的方法在UCI标准数据集上进行了测试,结果表明该方法优于已有算法.  相似文献   

3.
KNN算法是经典的文本分类算法.训练样本的数量和类别密度是影响算法性能的主要瓶颈,合理的样本剪裁可以提高分类器效率.文中提出了一种基于聚类的改进KNN分类模型.首先对训练集进行聚类,基于测试样本与簇之间的相对位置对训练集进行合理裁剪以节约计算开销;然后基于簇内样本分布进行样本赋权,改善大类别样本的密度占优现象.实验结果表明,本文提出的样本剪裁方法提高了KNN算法的分类性能.  相似文献   

4.
基于SRM自组织多区域覆盖的可拒绝近邻分类算法研究   总被引:1,自引:1,他引:0  
该文依据区分与划分相结合的可拒绝模式识别思路,提出了高维空间海量训练样本情况下的基于结构风险最小化决策的自组织多区域多球覆盖可拒绝近邻分类算法。该方法利用同类样本之间相互接近的特性,通过结构风险最小化紧几何覆盖策略,选择训练样本,通过自组织多区域多球覆盖模型构成同类样本的划分性描述,达到拒绝识别非训练类样本的目的,最后通过k近邻相互区分性比较确定真实类别。仿真实验结果表明该文的思路是合理可行的,在实际应用领域具有一定价值。  相似文献   

5.
一种聚类模式下基于密度的改进KNN算法   总被引:1,自引:0,他引:1  
KNN是基于实例的算法,训练样本的数量影响KNN的分类性能.合理的样本剪裁可以提高分类器的效率.提出了一种聚类条件下基于密度的KNN改进模型.首先使用聚类方法对训练集进行基于类别的选择,裁剪边缘样本以减少噪音;再基于类别密度对样本进行加权,改善k近邻选择时大类别、高密度训练样本的占优现象.试验结果表明,本文提出的改进KNN分类算法提高了KNN的分类效率.  相似文献   

6.
在伪最近邻(PNN)分类算法中,待分类样本点与每一类样本集中各个近邻的距离加权系数都是主观确定的,这就使得算法得不到最优距离加权值。针对这一问题,该文提出一种基于BP神经网络的自适应伪最近邻分类算法。首先通过计算待分类样本点与每一类样本集中各个近邻的距离值,并将其作为BP神经网络的输入。然后根据BP神经网络输入与输出之间的映射来自适应确定相应的距离加权值。最后由BP神经网络的输出值判别样本类别号。实验结果表明,该算法能够自适应地调节距离加权系数,同时还能有效地改善分类准确率。  相似文献   

7.
适用于不平衡样本数据处理的支持向量机方法   总被引:6,自引:0,他引:6  
吴洪兴彭宇  彭喜元 《电子学报》2006,34(B12):2395-2398
支持向量机算法在处理不平衡样本数据时,其分类器预测具有倾向性.样本数量多的类别,其分类误差小,而样本数量少的类别,其分类误差大.本文针对这种倾向性问题,在分析其产生原因的基础上,提出了基于遗传交叉运算的改进方法.对于小类别训练样本,利用交叉运算产生新的样本,从而补偿了因训练数据类别大小差异而造成的影响.基于UCI标准数据集的仿真实验结果表明,改进方法比标准支持向量机方法具有更好的分类准确率.  相似文献   

8.
在传统目标识别方法中,一般认为待识别的目标类别都包含在训练知识中然而在实际应用中经常会遇到一些新型目标,其没有任何训练样本可用于分类学习,此时传统的分类方法不再适用。针对该问题,提出了一种面向不完备辨识框架的K近邻目标识别算法。首先根据目标与其在训练样本空间中K近邻之间的距离信息选择一些明显的新型目标(训练集中没有包含该类型的目标),然后将这些新型目标样本加入训练集中,学习一个新分类器(包含已知类别和新型目标类别),并利用该分类器对其他目标数据再次分类,可有效检测出新型目标。利用多个实际数据集对新的识别方法与其他方法进行了比较分析,结果表明新方法能够显著提高新型目标识别准确率。  相似文献   

9.
基于改进LSDA的人体行为识别算法   总被引:1,自引:1,他引:0  
提出了一种基于改进的局部敏感判别分析(LSDA)的人体行为识别算法.首先,利用样本间的距离信息重置类内最近邻点集和类间最近邻点集的权值矩阵,保证在最大化目标函数时尽可能保持局部线性重构特性,解决小样本难题;然后,通过Gran-Schmidt正交化方法将特征矩阵进行正交化,可有效地保留原始空间中的高维空间,解决图像特征重建难题;最后在Weizmann行为数据库进行实验,平均正确识别率达到98.21%.试验结果表明,该算法具有良好的分类性能,在不同训练样本个数下,该算法均能获得较高的识别率.  相似文献   

10.
胡正平  张晔 《信号处理》2007,23(2):161-164
SVM是利用靠近边界的少数向量来构造最大间隔的分类超平面,当海量样本之间存在相互混迭时,支持向量数目急剧增加,导致训练难度增大。针对该问题,本文将结构风险最小化近邻分析与支持向量机相结合构成了一种新的SVM学习方法。它首先根据各个训练数据的类间最近邻距离利用结构风险最小化近邻分析选择训练子集;在选择的样本子空间内采用乘性规则直接求取Lagrange因子,而不是传统的二次优化方法;最后加入附加剩余样本进行交叉验证处理,直到算法满足收敛性准则。各种分类实验表明本文提出的算法具有良好的性能,特别是在训练样本庞大,支持向量数量较多的情况下,能够较大幅度的减少计算复杂度,提高分类速度。  相似文献   

11.
随机森林是近些年发展起来的新集成学习算法,具有较好的分类准确率。针对该算法计算复杂度较高的不足,提出了一种基于谱聚类划分的随机森林算法。首先,利用聚类效果较好的谱聚类算法对原始样本集的每一类进行聚类处理。然后,在每一聚类簇中随机选取一个样本作为代表,组成新训练样本集合。最后,在新训练样本集上训练随机森林分类器。该算法通过谱聚类技术对原始样本进行了初步划分,将位置相近的多个样本用簇内的一个样本代表,较大程度地减少了训练样本的个数。在Corel Image图像识别数据集上的实验表明,算法可以用较少的分类时间达到较高的分类精度。  相似文献   

12.
针对雷达高分辨率距离像(HRRP)识别中因特殊样本和分类器误判而出现的错误分类问题,提出了一种基于自适应类别权重的多分类器决策融合识别方法。该方法结合K-最近邻思想,利用最近邻和相似度准则挑选与测试样本对应的训练样本集,构造混淆矩阵自适应完成分类器置信度的计算和筛选,最终获得目标各类别权重,输出分类结果。基于实测数据的研究结果表明,相较于以上任意单个分类器和传统决策融合方案,文中提出的融合识别方法识别率有明显提高,并且随着噪声的增大,该方法的优势愈加突显。  相似文献   

13.
基于模糊模式与决策树融合的脚本病毒检测算法   总被引:2,自引:0,他引:2  
构建决策树进行脚本病毒检测可以全面利用训练样本的信息,在样本特征较为复杂、样本数较大的情况下会产生大量节点,计算时间复杂度高,在剪枝过程中影响分类准确度。为融合模糊模式的信息以提高分类器性能,该文设计了决策树分类基础上的融合算法。该算法将关于模糊模式贴近度的3个特性作为决策树样本信息向量中的属性。使用训练样本集,根据上述属性在划分点上的分裂信息值及信息增益率选择分裂属性,逐步构建决策树。实验结果验证了算法的稳定性与准确度,表明这种融合方法可增加属性的区分度,减少决策树的分支数。  相似文献   

14.
This paper presents a novel association rule mining (ARM)-based dissolved gas analysis (DGA) approach to fault diagnosis (FD) of power transformers. In the development of the ARM-based DGA approach, an attribute selection method and a continuous datum attribute discretization method are used for choosing user-interested ARM attributes from a DGA data set, i.e. the items that are employed to extract association rules. The given DGA data set is composed of two parts, i.e. training and test DGA data sets. An ARM algorithm namely Apriori-Total From Partial is proposed for generating an association rule set (ARS) from the training DGA data set. Afterwards, an ARS simplification method and a rule fitness evaluation method are utilized to select useful rules from the ARS and assign a fitness value to each of the useful rules, respectively. Based upon the useful association rules, a transformer FD classifier is developed, in which an optimal rule selection method is employed for selecting the most accurate rule from the classifier for diagnosing a test DGA record. For comparison purposes, five widely used FD methods are also tested with the same training and test data sets in experiments. Results show that the proposed ARM-based DGA approach is capable of generating a number of meaningful association rules, which can also cover the empirical rules defined in industry standards. Moreover, a higher FD accuracy can be achieved with the association rule-based FD classifier, compared with that derived by the other methods.  相似文献   

15.
基于K最近邻的支持向量机快速训练算法   总被引:2,自引:0,他引:2  
传统支持向量机训练大规模样本时间和空间开销大,使其应用受到了很大限制。为了提高支持向量机的训练速度,根据支持向量机的基本原理,应用K最近邻思想来筛选训练样本集,提出了基于K最近邻的支持向量机快速训练算法(KNN-SVM)。算法首先选取一部分最有可能成为支持向量的样本——边界向量,然后用边界向量集代替训练样本集进行支持向量机训练,大幅度减少了训练样本的数量,使支持向量机的训练速度显著提高。同时,由于边界向量包含了支持向量,因此,支持向量机的分类能力没有受到影响。仿真实验结果表明,与传统支持向量机相比,在分类精度相同的情况下,算法能够有效地提高支持向量机的训练速度,而且还可以提高支持向量机的分类速度和推广能力。  相似文献   

16.
Text classification is one of the most important topics in the fields of Internet information management and natural language processing. Machine learning based text classification methods are currently most popular ones with better performance than rule based ones. But they always need lots of training samples, which not only brings heavy work for previous manual classification, but also puts forward a higher request for storage and computing resources during the computer post-processing. Naïve Bayes algorithm is one of the most effective methods for text classification with the same problem. Only in the large training sample set can it get a more accurate result. This paper mainly studies Naïve Bayes classification algorithm for Chinese text based on Poisson distribution model and feature selection. The experimental results have shown that this method keeps high classification accuracy even in a small sample set.  相似文献   

17.
目前对于卷烟牌号的鉴别多应用一些传统分类算法,这些传统算法用于归纳一个通用规则的训练样本数据较少,造成分类模型的准确度较低,且预测结果没有置信度衡量,在高风险领域的应用不足。针对传统分类算法的局限性,提出了基于转导推理的一致性预测算法。通过探索待测数据和样本序列之间的内在联系,运用Kolmogorov算法的随机性理论建立一种置信度机制,并应用随机性检测函数对置信度进行估算,这样可以很好地对烟叶和成品卷烟进行定性判别和分类。  相似文献   

18.
陆建华 《红外与激光工程》2022,51(3):20210421-1-20210421-7
提出基于卷积神经网络(Convolutional Neural Network,CNN)与稀疏表示分类(Sparse Representation-based Classification,SRC)联合决策的合成孔径雷达(Synthetic Aperture Radar,SAR)目标识别方法。CNN通过深度网络学习SAR图像的多层次特征,进而对其所属的目标类别进行判决。研究表明,CNN在训练样本充足的条件下可以取得很好的识别性能。然而,对于训练样本未能包含的条件,CNN的分类性能通常会出现明显下降。因此,先采用CNN对待识别的测试样本进行分类,再根据输出的决策值(即,各个训练类别对应的后验概率)计算当前分类结果的可靠性。当分类结果判定可靠时,则直接采信CNN的决策,输出测试样本的目标类别。反之,则根据CNN输出的决策值筛选若干候选类别,然后基于它们的训练样本构建全局字典用于SRC分类。对于SRC的分类结果,进一步采用Bayesian融合算法将其与CNN的分类结果进行融合。最终,根据融合后的结果判定测试样本的目标类别。提出方法通过层次化的思路融合CNN和SRC的优势,有利于发挥两者对不同测试条件的优势,达到提高识别稳健性的目的。实验中,基于MSTAR数据集开展测试分析,结果验证了提出方法的有效性。  相似文献   

19.
支持向量机可以通过产生的支持向量来概括数据集合中的信息,其分类函数仅依赖于一小部分训练样本,即支持向量,这使得它对噪声数据非常敏感.本文采用数据融合的方法加以改进,提出了一种新的基于类融合向量的支持向量机,降低了对噪声数据和较大偏差值的敏感性,提高了算法的容噪性能,并成功地应用于语音识别系统中,取得了较好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号