首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为了提高支持向量机在大规模数据集处理时的精度,提出了基于核空间和样本中心角度的支持向量机算法.在核特征空间下,求得原训练集的两类中心点和两个中心点的超法平面,并获取原训练集样本到超法平面距离和到两中心点中点的比值,用比值最小的n个样本点替代训练集.给出的数学模型显示,该算法不需要计算核空间,比现有的同类缩减策略保留了更多的支持向量数目.结合实例对算法进行了仿真实验,实验结果表明,与同类算法相比,该算法在基本没有降低训练速度的情况下获得了更准确的训练精度.  相似文献   

2.
不平衡数据分类是机器学习研究领域中的一个热点问题。针对传统分类算法处理不平衡数据的少数类识别率过低问题,文章提出了一种基于聚类的改进AdaBoost分类算法。算法首先进行基于聚类的欠采样,在多数类样本上进行K均值聚类,之后提取聚类质心,与少数类样本数目一致的聚类质心和所有少数类样本组成新的平衡训练集。为了避免少数类样本数量过少而使训练集过小导致分类精度下降,采用少数过采样技术过采样结合聚类欠采样。然后,借鉴代价敏感学习思想,对AdaBoost算法的基分类器分类误差函数进行改进,赋予不同类别样本非对称错分损失。实验结果表明,算法使模型训练样本具有较高的代表性,在保证总体分类性能的同时提高了少数类的分类精度。  相似文献   

3.
基于支持向量机自适应核的改进算法   总被引:1,自引:1,他引:0  
支持向量机是在一个向量空间中依靠样本集中的训练向量获取两个样本集之间最优边界的方法.针对支持向量机中基于高斯核的动态自适应核进行了分析,并将传统算法进行改进,通过对点到平面的距离z<,1>的调整,对中间变量a<,1>的细致讨论,以及对迭代停止条件的控制,得到了适合手写体汉字识别系统的新的自适应核算法,并通过其在手写体汉字识别中的实验,验证了新的自适应算法在识别率、泛化误差边界最小化和核参数选择方面的有效性.算法使得在大的核参数空间中没有额外代价的探索变的可行.  相似文献   

4.
一种基于morlet小波核的约简支持向量机   总被引:7,自引:0,他引:7  
针对支持向量机(SVM)的训练数据量仅局限于较小样本集的问题,结合Morlet小波核函数,提出了一种基于Morlet小波核的约倚支持向量机(MWRSVM—DC).算法的核心是通过密度聚类寻找聚类中每个簇的边缘点作为约倚集合,并利用该约倚集合寻找支持向量.实验表明,利用小波核,该算法不仅提高了分类的准确率,而且提高了整体分类效率.  相似文献   

5.
局部关注支持向量机算法   总被引:1,自引:0,他引:1  
针对训练数据集的不均衡性这一问题,结合采样方法和集成方法,提出一种集成支持向量机分类算法。该算法首先对不均衡的训练集进行非监督聚类;然后依靠其底层的局部关注支持向量机进行数据集局部划分,以精确把控数据集间的局部特征;最后通过顶层支持向量机进行分类预测。在UCI数据集上的评测结果显示,该算法与当前流行的算法(如基于采样的核化少数类过采样技术(K-SMOTE)、基于集成的梯度提升决策树(GTB)和代价敏感集成算法(AdaCost)等)相比,分类效果有明显提升,能在一定程度上解决数据集的不均衡问题。  相似文献   

6.
Di Wang  Peng Zhang 《Pattern recognition》2010,43(10):3468-3482
Support vector machine (SVM) is a widely used classification technique. However, it is difficult to use SVMs to deal with very large data sets efficiently. Although decomposed SVMs (DSVMs) and core vector machines (CVMs) have been proposed to overcome this difficulty, they cannot be applied to online classification (or classification with learning ability) because, when new coming samples are misclassified, the classifier has to be adjusted based on the new coming misclassified samples and all the training samples. The purpose of this paper is to address this issue by proposing an online CVM classifier with adaptive minimum-enclosing-ball (MEB) adjustment, called online CVMs (OCVMs). The OCVM algorithm has two features: (1) many training samples are permanently deleted during the training process, which would not influence the final trained classifier; (2) with a limited number of selected samples obtained in the training step, the adjustment of the classifier can be made online based on new coming misclassified samples. Experiments on both synthetic and real-world data have shown the validity and effectiveness of the OCVM algorithm.  相似文献   

7.
SVM-KNN分类算法研究   总被引:1,自引:0,他引:1  
SVM-KNN分类算法是一种将支持向量机(SVM)分类和最近邻(NN)分类相结合的新分类方法。针对传统SVM分类器中存在的问题,该算法通过支持向量机的序列最小优化(SMO)训练算法对数据集进行训练,将距离差小于给定阈值的样本代入以每类所有的支持向量作为代表点的K近邻分类器中进行分类。在UCI数据集上的实验结果表明,该分类器的分类准确率比单纯使用SVM分类器要高,它在一定程度上不受核函数参数选择的影响,具有较好的稳健性。  相似文献   

8.
传统机器学习方法泛化性能不佳,需要通过大规模数据训练才能得到较好的拟合结果,因此不能快速学习训练集外的少量数据,对新种类任务适应性较差,而元学习可实现拥有类似人类学习能力的强人工智能,能够快速适应新的数据集,弥补机器学习的不足。针对传统机器学习中的自适应问题,利用样本图片的局部旋转对称性和镜像对称性,提出一种基于群等变卷积神经网络(G-CNN)的度量元学习算法,以提高特征提取能力。利用G-CNN构建4层特征映射网络,根据样本图片中的局部对称信息,将支持集样本映射到合适的度量空间,并以每类样本在度量空间中的特征平均值作为原型点。同时,通过同样的映射网络将查询机映射到度量空间,根据查询集中样本到原型点的距离完成分类。在Omniglot和miniImageNet数据集上的实验结果表明,该算法相比孪生网络、关系网络、MAML等传统4层元学习算法,在平均识别准确率和模型复杂度方面均具有优势。  相似文献   

9.
传统转导支持向量机有效地利用了未标记样本,具有较高的分类准确率,但是计算复杂度较高。针对该不足,论文提出了一种基于核聚类的启发式转导支持向量机学习算法。首先将未标记样本利用核聚类算法进行划分,然后对划分后的每一簇样本标记为同一类别,最后根据传统的转导支持向量机算法进行新样本集合上的分类学习。所提方法通过对核聚类后同一簇未标记样本赋予同样的类别,极大地降低了传统转导支持向量机算法的计算复杂度。在MNIST手写阿拉伯数字识别数据集上的实验表明,所提算法较好地保持了传统转导支持向量机分类精度高的优势。  相似文献   

10.
Having a machine learning algorithm that can correctly classify malicious software has become a necessity as old methods of detection based on hashes and hand written heuristics tend to fail when dealing with the intensive flow of new malware. However, in order to be practical, the machine learning classifiers must also have a reasonable training time and a very small amount, preferably zero, of false positives. There were a few authors who addressed both these issues in their papers but creating such a model is more difficult when more than 3 million files are involved/needed in the training. We mapped a zero false positive perceptron in a new space, applied a feature selection algorithm and used the resulted model in an ensemble, voting or a rule based clustering system we’ve managed to achieve a detection rate around 99 % and 0.07 % false positives while keeping the training time suitable for large data sets.  相似文献   

11.
标记分布学习是近年来提出的一种新的机器学习范式,它能很好地解决某些标记多义性的问题。现有的标记分布学习算法均利用条件概率建立参数模型,但未能充分利用特征和标记间的联系。本文考虑到特征相似的样本所对应的标记分布也应当相似,利用原型聚类的k均值算法(k-means),将训练集的样本进行聚类,提出基于k-means算法的标记分布学习(label distribution learning based on k-means algorithm,LDLKM)。首先通过聚类算法k-means求得每一个簇的均值向量,然后分别求得对应标记分布的均值向量。最后将测试集和训练集的均值向量间的距离作为权重,应用到对测试集标记分布的预测上。在6个公开的数据集上进行实验,并与3种已有的标记分布学习算法在5种评价指标上进行比较,实验结果表明提出的LDLKM算法是有效的。  相似文献   

12.
一种自动选择参数的加权支持向量机算法   总被引:7,自引:0,他引:7  
C-SVM分类算法在不同类别样本数目不均衡的情况下,训练时的分类错误倾向于样本数目小的类别。样本集中出现重复样本时作为新样本重新计算,增加了算法的训练时间。针对这两种问题,分析了产生的原因,提出了一种加权支持向量机算法,补偿了类别差异造成的不利影响,加快了重复样本的决策速度。为提高算法的推广性能,在模型训练过程中引入遗传算法自动选择惩罚因子和核函数宽度两个参数。实验结果表明了该算法可以有效地解决类别不均衡和重复样本问题,且训练模型具有良好的推广性能。  相似文献   

13.
一种基于反例样本修剪支持向量机的事件追踪算法   总被引:1,自引:0,他引:1  
支持向量机(SVM)在各类别样本数目分布不均匀时,样本数量越多其分类误差越小,而样本数量越少其分类误差越大.在分析这种倾向产生原因的基础上,提出了一种基于反例样本修剪支持向量机(NEP—SVM)的事件追踪算法.该算法首先修剪反例样本,根据距离和类标决定一反例样本的取舍,然后使用SVM对新的样本集进行训练以得到分类器,补偿了上述倾向性问题造成的不利影响.另外,由于后验概率对于提高事件追踪的性能至关重要,而传统的支持向量机不提供后验概率,本文通过一个sigmoid函数的参数训练将SVM的输出结果映射成概率.实验结果表明NEP—SVM是有效的.  相似文献   

14.
Feature selection has been widely discussed as an important preprocessing step in machine learning and data mining. In this paper, a new feature selection evaluation criterion based on low-loss learning vector quantization (LVQ) classification is proposed. Based on the evaluation criterion, a feature selection algorithm that optimizes the hypothesis margin of LVQ classification through minimizing its loss function is presented. Some experiments that are compared with well-known SVM-RFE and Relief are carried out on 4 UCI data sets using Naive Bayes and RBF Network classifier. Experimental results show that new algorithm achieves similar or even higher performance than Relief on all training data and has better or comparable performance than SVM-RFE.  相似文献   

15.
基于半监督学习和支持向量机的煤与瓦斯突出预测研究   总被引:1,自引:1,他引:0  
针对支持向量机要求输入向量为已标记样本,而实际应用中已标记样本很难获取的问题,提出将半监督学习和支持向量机结合的煤与瓦斯突出预测方法;介绍了采用SVM预测煤与瓦斯突出的流程及其输入向量的选择;对半监督学习中的协同训练算法进行了改进:在同一属性集上训练2个不同分类器SVM和KNN,将2个分类器标记一致的样本加入训练集,从而充分利用未标记样本不断补充信息,更新训练集标记样本,达到强化训练集的目的。测试结果表明,改进后的算法比单独的支持向量机预测方法准确率更高。  相似文献   

16.
赵艳芹  孙昌立 《计算机应用》2009,29(5):1477-1479
针对Apriori关联规则算法需要多次扫描事务数据库及产生的候选集庞大的瓶颈问题,提出一种不产生候选项目集,即可产生项目集的新算法,对数据的处理次数大大减少,提高了挖掘效率。并结合在儿童培训机构客户关系管理(CRM)中客户选择的培训内容的具体应用分析,阐明了基于Apriori改进算法的CRM数据挖掘对于儿童培训机构增强竞争优势的重要意义。  相似文献   

17.
卷积神经网络通常使用标准误差逆传播算法进行串行训练,随着数据规模的增长,单机串行训练存在耗时长且占有较多的系统资源的问题。为有效实现海量数据的卷积神经网络训练,提出一种基于MapReduce框架的BP神经网络并行化训练模型。该模型结合了标准误差逆传播算法和累积误差逆传播算法,将大数据集分割成若干个子集,在损失少量准确率的条件下进行并行化处理,并扩展MNIST数据集进行图像识别测试。实验结果表明,该算法对数据规模有较好的适应性,能够提高卷积神经网络的训练效率。  相似文献   

18.
极限学习机(ELM)是一种新型单馈层神经网络算法,在训练过程中只需要设置合适的隐藏层节点个数,随机赋值输入权值和隐藏层偏差,一次完成无需迭代.结合遗传算法在预测模型参数寻优方面的优势,找到极限学习机的最优参数取值,建立成都双流国际机场旅客吞吐量预测模型,通过对比支持向量机、BP神经网络,分析遗传-极限学习机算法在旅客吞吐量预测中的可行性和优势.仿真结果表明遗传-极限学习机算法不仅可行,并且与原始极限学习机算法相比,在预测精度和训练速度上具有比较明显的优势.  相似文献   

19.
在分析了传统支持向量机(SVM)对不平衡数据的学习缺陷后,提出了一种改进SVM算法,采用自适应合成(ADASYN)采样技术对数据集进行部分重采样,增加少类样本的数量;对不同的样本点分配不同的权重,减弱噪声对训练结果的影响;使用基于代价敏感的SVM算法训练,缓解不平衡数据对超平面造成的偏移.选择UCI数据库中的6组不平衡数据集进行测试,实验结果表明:在各个数据集上改进SVM算法的性能优于其他算法,并在少类准确率和多类准确率上取得了很好的平衡.  相似文献   

20.
可补偿类别差异的加权支持向量机算法   总被引:14,自引:0,他引:14       下载免费PDF全文
支持向量机(SVM)算法在各类别样本数多少不同时,样本数量多的类别,其分类误差小,而样本数量少的类别,其分类误差大.针对这种倾向性问题,在分析其产生原因的基础上,提出了加权SVM算法,从而克服了常规SVM算法不能灵活处理每一个样本的缺陷,同时补偿了这种倾向性造成的不利影响.这种以牺牲大类别精度来提高小类别精度的加权支持向量机方法,可应用于诸如故障诊断等关注小类别分类精度的场合.户外图象识别的实验结果证明,该算法是有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号