首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
在实际的分类任务中,无标记样本数量充足而有标记样本数量稀少的情况经常出现,目前处理这种情况的常用方法是半监督自训练分类算法。提出了一种基于数据密度的半监督自训练分类算法,该算法首先依据数据的密度对数据集进行划分,从而确定数据的空间结构;然后再按照数据的空间结构对分类器进行自训练的迭代,最终得到一个新的分类器。在UCI中6个数据集上的实验结果表明,与三种监督学习算法以及其分别对应的自训练版本相比,提出的算法分类效果更好。  相似文献   

2.
针对实际工况下调压器标记样本稀缺导致故障诊断效果不佳的问题,基于自训练算法与半监督生成对抗网络(semi-supervisedgenerativeadversarialnetwork,SGAN)设计了故障诊断模型。首先,对燃气调压器一维压力信号进行预处理,得到灰度图像样本。之后,基于深度卷积生成对抗网络,设计SGAN进行特征提取,判别器采用具有共享权值的堆叠鉴别器模型。然后,设计自训练算法,使用训练好的初始分类器预测无标签样本的类别标签。最后,采用重复标记方式将满足要求的样本扩充到有标签样本集重新训练,保存最终的分类器。实验结果表明,在少量调压器标签样本的情况下,所提模型依旧具有良好的性能。  相似文献   

3.
虚假招聘广告的泛滥不仅会损害求职者的合法权益,还会扰乱正常的就业秩序,造成求职者极差的用户体验。为了有效检测出虚假招聘广告,提出一种基于一致性训练的半监督虚假招聘广告检测模型(SSC)。首先,对所有数据应用一致性正则项提升模型的性能;然后,通过联合训练的方式整合有监督损失和无监督损失得到半监督损失;最后,使用半监督损失对模型进行优化。在两个真实数据集EMSCAD (EMployment SCam Aegean Dataset)和IMDB (Internet Movie DataBase)上的实验结果表明,SSC在标签数据仅为20时取得了最好的检测效果,准确率与现有先进的半监督学习模型UDA (Unsupervised Data Augmentation)相比提升了2.2和2.8个百分点,与深度学习模型BERT (Bidirectional Encoder Representations from Transformers)相比提升了3.4和11.7个百分点,同时还具有较好的可拓展性。  相似文献   

4.
方面提取是观点挖掘和情感分析任务中的关键一步,随着社交网络的发展,用户越来越倾向于根据评论信息来帮助进行决策,并且用户也更加关注评论的细粒度的信息,因此,从海量的网络评论数据中快速挖掘方面信息对于用户快速决策具有重要意义。大部分基于主题模型和聚类的方法在方面提取的一致性上效果并不好,传统的监督学习的方法效果虽然表现很好,但是需要大量的标注文本作为训练数据,标注文本需要消耗大量的人力成本。基于以上问题,本文提出一种基于半监督自训练的方面提取方法,充分利用现存的大量未标签的数据价值,在未标签数据集上通过词向量模型寻找方面种子词的相似词,对每个方面建立与数据集最相关的方面表示词集合,本文方法避免了大量的文本标注,充分利用未标签数据的价值,并且本文方法在中文和英文数据集上都表现出了理想的效果。  相似文献   

5.
将支持向量机与半监督学习理论相结合,提出基于支持向量机协同训练的半监督回归模型,使用两个支持向量机回归模型相互影响,协同训练。利用实验数据集进行实验,并与监督支持向量机回归模型、半监督自训练支持向量机回归模型作比较。实验结果表明,基于支持向量机协同训练的半监督回归模型在缺少标记样本的情况下,提高了回归估计的精度。  相似文献   

6.
为了充分利用实际工业过程中大量无标签数据中的信息,提出了一种基于改进自训练算法的高斯过程回归(GPR)软测量建模方法。首先,利用相似度估计无标签样本缺失的主导变量值;然后,根据估计值对有标签数据集的影响,对估计样本集中的数据进行筛选;最后,将泛化能力强的样本加入有标签样本集中,得到重构训练样本集并进行软测量建模。通过脱丁烷塔塔底丁烷浓度预测的仿真实验,验证了所提方法的可行性和有效性。  相似文献   

7.
吕佳  黎隽男 《计算机应用》2018,38(1):110-115
针对自训练方法在迭代中选出的置信度高的无标记样本所含信息量不大和自训练方法容易误标记无标记样本的问题,提出了一种结合半监督聚类和数据剪辑的Naive Bayes自训练方法。该自训练方法在每次迭代的时候,首先利用少量的有标记样本和大量的无标记样本进行半监督聚类,从而选出聚类隶属度高的无标记样本作Naive Bayes分类;然后利用数据剪辑技术来过滤掉聚类隶属度高而被Naive Bayes误分类的无标记样本。该数据剪辑技术能够同时利用有标记样本和无标记样本信息进行噪声过滤,解决了传统数据剪辑技术的性能可能因有标记样本数量匮乏而下降的问题。通过在UCI数据集上的对比实验,证明了所提算法的有效性。  相似文献   

8.
波段选择是数据降维的有效手段,但有限的标记样本影响了监督波段选择的性能。提出一种利用图Laplacian和自训练策略实现半监督波段选择的方法。该方法首先定义基于图的半监督特征评分准则以产生初始波段子集,接着在该子集基础上进行分类,采用自训练策略将部分可信度较高的非标记样本扩展至标记样本集合,再用特征评分准则对波段子集进行更新。重复该过程,获得最终波段子集。高光谱波段选择与分类实验比较了多种非监督、监督和半监督方法,实验结果表明所提算法能选择出更好的波段子集。  相似文献   

9.
传统的机器学习主要解决单标记学习,即一个样本仅有一个标记.在生物信息学中,一个基因通常至少具有一个功能,即至少具有一个标记,与传统学习方法相比,多标记学习能更有效地识别生物相关基因组的功能.目前的研究主要集中在监督多标记学习算法.然而,研究半监督多标记学习算法,从已标记和未标记的基因表达数据中学习,仍然是未解决问题.提出一种有效的基因功能分析的半监督多标记学习算法SML_SVM.首先,SML_SVM根据PT4方法,将半监督多标记学习问题转化为半监督单标记学习问题,然后根据最大后验概率原则(MAP)和K近邻方法估计未标记样本的标记,最后,用SVM求解单标记学习问题.在yeast基因数据和genbase蛋白质数据上的实验表明,SML_SVM性能比基于PT4方法的MLSVM和自训练MLSVM更优.  相似文献   

10.
针对集成自训练算法随机初始化有标记样本容易在迭代中局部过拟合,不能很好地泛化到样本原始空间结构和集成自训练算法用WKNN分类器做数据剪辑时没有考虑到无标记样本对待测样本类别判定有影响的问题,提出结合近邻密度和半监督KNN的集成自训练算法。该算法用近邻密度方法选取初始化的已标注样本,避免已标注样本周围[k]个近邻样本成为已标注候选集。这样使初始化的已标注样本间的距离尽量分散,以更好地反应样本原始空间结构。同时在已标注样本候选集中选取密度最大的样本作为已标注样本。为了提高数据剪辑的性能,用半监督KNN代替WKNN,弥补WKNN做数据剪辑的时候只考虑到了有标记样本对待测样本类别的影响,而没有利用待测样本周围的无标记样本的问题,在UCI数据集上的对比实验验证了提出算法的有效性。  相似文献   

11.
Statistical machine translation systems are usually trained on large amounts of bilingual text (used to learn a translation model), and also large amounts of monolingual text in the target language (used to train a language model). In this article we explore the use of semi-supervised model adaptation methods for the effective use of monolingual data from the source language in order to improve translation quality. We propose several algorithms with this aim, and present the strengths and weaknesses of each one. We present detailed experimental evaluations on the French–English EuroParl data set and on data from the NIST Chinese–English large-data track. We show a significant improvement in translation quality on both tasks.  相似文献   

12.
提出了基于Grassmann流形的半监督图像集鉴别分析方法。该方法将子空间表示成Grassmann流形上的点,分别用一组单位正交基表示。通过Grassmann核函数,度量子空间的相似度。不同于其他基于Grassmann流形的图像集鉴别分析,引入图嵌入框架,通过保持数据局部邻域结构的同时,最大化不同类别数据的距离,得到最优投影矩阵,并在投影空间中进行图像集分类。采用半监督学习,对于未标记样本,根据其最近邻类别进行估计。实验表明,该方法取得了优于其他图像集识别算法的效果。  相似文献   

13.
分层狄利克雷过程(HDP)主题模型从数据中自动学习结构最优的主题集,但往往不满足实际语义要求,而现有的一些带标签的主题模型又需要设定很难界定的参数.因此,文中在已知部分语义标签和标签确定度的基础上,分别提出半监督HDP主题模型(SLHDP)和随机簇的准确度评价指标.该模型为已知的语义标签赋予较高权重,结合狄利克雷过程有限空间无线划分的特性,并通过中国餐馆过程建模生成.在多个中英文数据集中的实验表明,在大规模数据集的文本分类中,SLHDP模型能够使主题集的构成更合理.  相似文献   

14.
基于差异的半监督学习属于半监督学习和集成学习的结合,是近年来机器学习领域的研究热点.但相关的理论研究较缺乏,且都未考虑存在分布噪声的情况.文中首先针对基于差异的半监督学习的特点,定义一种分类噪声和分布噪声的混合噪声(HCAD).其次给出算法在HCAD噪声下的可能近似正确(PAC)理论分析及其应用实例.最后基于投票边缘函数,推导出在HCAD噪声下多分类器系统的泛化误差上界,并给出相关证明.文中开展的理论研究可用于设计基于差异的半监督学习算法及评估算法的泛化能力,具有广阔的应用前景.  相似文献   

15.
论述了多视点需求分析方法在创新设计中的应用,并详细地介绍了如何利用相容和综合的方法解决多视点分析中存在的视点不一致问题。  相似文献   

16.
Training recognizers for handwritten characters is still a very time consuming task involving tremendous amounts of manual annotations by experts. In this paper we present semi-supervised labeling strategies that are able to considerably reduce the human effort. We propose two different methods to label and later recognize characters in collections of historical archive documents. The first one is based on clustering of different feature representations and the second one incorporates a simultaneous retrieval on different representations. Hence, both approaches are based on multi-view learning and later apply a voting procedure for reliably propagating annotations to unlabeled data. We evaluate our methods on the MNIST database of handwritten digits and introduce a realistic application in form of a database of handwritten historical weather reports. The experiments show that our method is able to significantly reduce the human effort that is required to build a character recognizer for the data collection considered while still achieving recognition rates that are close to a supervised classification experiment.  相似文献   

17.
本文提出了一种基于模式匹配的多序列相似性分析方法,该方法将模式匹配应用到序列比对中,采用Kimura双参数模型计算进化矩阵并构造物种进化树,进行相似性分析。实验结果表明该方法的有效性。  相似文献   

18.
作为当前数据流挖掘研究的热点之一,多数据流聚类要求在跟踪多个数据流随时间演化的同时按其相似程度进行划分。文中提出一种基于灰关联分析并结合近邻传播聚类的多数据流聚类方法。该方法基于一种灰关联度,将多个数据流的原始数据压缩成可增量更新的灰关联概要信息,并根据该信息计算多个数据流之间的灰关联度作为其相似性测度,最后应用近邻传播聚类算法生成聚类结果。在真实数据集上的对比实验证明该方法的有效性。  相似文献   

19.
为了克服加权线性判别分析(WLDA)只利用有标签的训练样本而不能反映样本数据流形结构的缺点,提出一种正则化的半监督判别分析方法。首先构建所有样本的近邻图来估计数据的局部流形结构,然后将此作为正则项引入WLDA的准则函数中。该方法避免了类内散度矩阵奇异,同时保持了样本数据的判别结构和几何结构。在ORL和YALE人脸数据库上的实验结果证明了该算法的有效性。  相似文献   

20.
对象初始化方法决定了如何对待多目标跟踪问题,与后续的多目标跟踪效果直接相关.不同的对象初始化方法能够确定不同的多目标跟踪框架,每一种框架都提供一种解决问题的思路,使得多目标跟踪的对象初始化问题具有巨大的研究前景.目前关于多目标跟踪中的对象初始化方法的综述性文献较少或缺乏系统性的对象初始化概述,因此文中从多假设跟踪方法、...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号