首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于集成学习的半监督情感分类方法研究   总被引:1,自引:0,他引:1  
情感分类旨在对文本所表达的情感色彩类别进行分类的任务。该文研究基于半监督学习的情感分类方法,即在很少规模的标注样本的基础上,借助非标注样本提高情感分类性能。为了提高半监督学习能力,该文提出了一种基于一致性标签的集成方法,用于融合两种主流的半监督情感分类方法:基于随机特征子空间的协同训练方法和标签传播方法。首先,使用这两种半监督学习方法训练出的分类器对未标注样本进行标注;其次,选取出标注一致的未标注样本;最后,使用这些挑选出的样本更新训练模型。实验结果表明,该方法能够有效降低对未标注样本的误标注率,从而获得比任一种半监督学习方法更好的分类效果。  相似文献   

2.
缩略词拓展解释识别任务中标注样本较少,无法从中总结出全面的规则或采用有监督的学习方法来学习.为此,提出一种基于半监督条件随机场(CRF)的缩略词扩展解释识别模型,利用广泛的未标注样本和较少的标注样本寻找序列文本中恰当的语句,以解释给定的缩略词.使用较少的标注序列样本训练一个全监督CRF模型,针对未标注序列样本,采用最小序列熵学习样本之间的联系,结合标注样本和未标注样本,利用半监督自学习方法学习两者的关系.实验结果表明,该模型的序列F1值达到84.73%,高于支持向量机和全监督CRF基准算法.  相似文献   

3.
情感分类是目前自然语言处理领域的一个热点研究问题。该文关注情感分类中的半监督学习方法(即基于少量标注样本和大量未标注样本进行学习的方式),提出了一种新的基于动态随机特征子空间的半监督学习方法。首先,动态生成多个随机特征子空间;然后,基于协同训练(Co-training)在每个特征子空间中挑选置信度高的未标注样本;最后使用这些挑选出的样本更新训练模型。实验结果表明我们的方法明显优于传统的静态产生方式及其他现有的半监督方法。此外该文还探索了特征子空间的划分数目问题。  相似文献   

4.
当标注样本匮乏时,半监督学习利用大量未标注样本解决标注瓶颈的问题,但由于未标注样本和标注样本来自不同领域,可能造成未标注样本存在质量问题,使得模型的泛化能力变差,导致分类精度下降.为此,基于wordMixup方法,提出针对未标注样本进行数据增强的u-wordMixup方法,结合一致性训练框架和Mean Teacher模型,提出一种基于u-wordMixup的半监督深度学习模型(semi-supervised deep learning model based on u-wordMixup,SD-uwM).该模型利用u-wordMixup方法对未标注样本进行数据增强,在有监督交叉熵和无监督一致性损失的约束下,能够提高未标注样本质量,减少过度拟合.在AGNews、THUCNews和20 Newsgroups数据集上的对比实验结果表明,所提出方法能够提高模型的泛化能力,同时有效提高时间性能.  相似文献   

5.
针对全极化SAR图像在监督分类中存在的人工标注样本费时费力以及多种极化特征未能综合利用等问题,提出一种基于协同训练与集成学习的极化SAR图像半监督分类方法。该方法以支持向量机作为半监督学习的基分类器,通过协同学习机制将多种极化目标分解下的特征有效结合,实现同时利用无标注和有标注样本,最后通过集成学习进一步提高分类模型的泛化能力。在AIRSAR和EMISAR影像上的实验表明,该方法能充分利用不同特征的特点,在较少人工标注的样本下也能获得较高的分类精度。  相似文献   

6.
在现有互训练(Co-Training)算法的基础上,提出了一种基于多个互补型分类器的半监督学习(Semi-Supervised Learn-ing)方法,并将其应用到自动视频语义标注框架中.该方法通过构建基于特征互补和模型互补的多个分类器对未标注样本中的隐含信息加以利用,并结合视频序列中概念分布的时间相关性和局部聚集性等特性提高了分类的准确性,相对于有监督学习方法提高了约7%左右.  相似文献   

7.
本文提出一种基于半监督主动学习的算法,用于解决在建立动态贝叶斯网络(DBN)分类模型时遇到的难以获得大量带有类标注的样本数据集的问题.半监督学习可以有效利用未标注样本数据来学习DBN分类模型,但是在迭代过程中易于加入错误的样本分类信息,并因而影响模型的准确性.在半监督学习中借鉴主动学习,可以自主选择有用的未标注样本来请求用户标注.把这些样本加入训练集之后,能够最大程度提高半监督学习对未标注样本分类的准确性.实验结果表明,该算法能够显著提高DBN学习器的效率和性能,并快速收敛于预定的分类精度.  相似文献   

8.
基于朴素贝叶斯的半监督学习遥感影像分类   总被引:1,自引:0,他引:1       下载免费PDF全文
杨伟  方涛  许刚 《计算机工程》2010,36(20):167-169
为提高分类器识别率,减少标注样本使用数量,提出一种基于朴素贝叶斯的半监督学习方法。研究基于该方法的分类器分类效果,采用遥感影像数据作为训练和测试集,与基于朴素贝叶斯的全监督学习分类器分类效果作比较。实验结果表明,当标注样本与非标注样本比例在1:2~1:9时,半监督学习可以利用比全监督学习更少的标注样本,达到更高的分类精度。  相似文献   

9.
问题分类旨在对问题的类型进行自动分类,该任务是问答系统研究的一项基本任务。提出了一种基于答案辅助的半监督问题分类方法。首先,将答案特征结合问题特征一起实现样本表示;然后,利用标签传播方法对已标注问题训练分类器,自动标注未标注问题的类别;最后,将初始标注的问题和自动标注的问题合并作为训练样本,利用最大熵模型对问题的测试文本进行分类。实验结果表明,本文提出的基于答案辅助的半监督分类方法能够充分利用未标注样本提升性能,明显优于其他的基准方法。  相似文献   

10.
目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集[U]中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标注数据集[U]中数据进行人工标注从而构建分类器的方法OAL(Only Active Learning),基于投票委员会(QBC)对标注数据集构建多个分类器进行投票,以计算未标注数据样本的类别不一致性,并综合考虑数据样本的分布密度,计算数据样本的信息量,作为主动学习的数据选择策略。鉴于人工标注数据量有限,在上述OAL方法的基础上,将主动学习与半监督学习相结合,即在主动学习迭代过程中,将类别一致性高的部分数据样本自动标注,以增加训练数据中标注数据量,保证构建分类器的训练数据量。实验表明了该方法通过部分人工标注,相比半监督学习,能够为PU数据集构建更高准确率的分类器。  相似文献   

11.
针对极限学习机(ELM)未充分利用未标注样本、训练精度受网络权值初值影响的问题,提出一种基于协同训练与差分进化的改进ELM算法(Tri-DE-ELM)。考虑到传统的ELM模式分类技术只利用了少量标注样本而忽视大量未标注样本的问题,首先应用基于Tri-Training算法的协同训练机制构建Tri-ELM半监督分类算法,利用少量的标记样本训练三个基分类器实现对未标记样本的标注。进一步针对基分类器训练中ELM网络输入层权值随机初始化影响分类效果的问题,采用差分进化(DE)算法对网络初值进行优化,优化目标及过程同时包括网络权值和分类误差两方面的因素,以避免网络的过拟合现象。在标准数据集上的实验结果表明,Tri-DE-ELM算法能有效地利用未标注数据,具有比传统ELM更高的分类精度。  相似文献   

12.
针对中文组织机构名识别中的标注语料匮乏问题,提出了一种基于协同训练机制的组织机构名识别方法。该算法利用Tri-training学习方式将基于条件随机场的分类器、基于支持向量机的分类器和基于记忆学习方法的分类器组合成一个分类体系,并依据最优效用选择策略进行新加入样本的选择。在大规模真实语料上与co-training方法进行了比较实验,实验结果表明,此方法能有效利用大量未标注语料提高算法的泛化能力。  相似文献   

13.
陈文  张恩阳  赵勇 《计算机科学》2016,43(9):223-226, 237
卷积神经网络(CNN)是一类重要的深度神经网络,然而其训练过程需要大量的已标记样本,从而限制了其实际应用。针对这一问题,分析了CNN分类器的协同学习过程,给出了基于迭代进化的分类器协同训练算法CAMC。该算法结合了CNN和多分类器协同训练的优势,首先采用不同的卷积核提取出多种样本特征以产生不同的CNN分类器;然后利用少量的已标记样本和大量的未标记样本对多个分类器进行协同训练,以持续提高分类性能。在人脸表情标准数据集上的实验结果表明,相对于传统的表情特征识别法LBP和Gabor,CAMC能够在分类过程中利用未标记样本持续实现性能提升,从而具有更高的分类准确率。  相似文献   

14.
Tri-training: exploiting unlabeled data using three classifiers   总被引:24,自引:0,他引:24  
In many practical data mining applications, such as Web page classification, unlabeled training examples are readily available, but labeled ones are fairly expensive to obtain. Therefore, semi-supervised learning algorithms such as co-training have attracted much attention. In this paper, a new co-training style semi-supervised learning algorithm, named tri-training, is proposed. This algorithm generates three classifiers from the original labeled example set. These classifiers are then refined using unlabeled examples in the tri-training process. In detail, in each round of tri-training, an unlabeled example is labeled for a classifier if the other two classifiers agree on the labeling, under certain conditions. Since tri-training neither requires the instance space to be described with sufficient and redundant views nor does it put any constraints on the supervised learning algorithm, its applicability is broader than that of previous co-training style algorithms. Experiments on UCI data sets and application to the Web page classification task indicate that tri-training can effectively exploit unlabeled data to enhance the learning performance.  相似文献   

15.
龚彦鹭  吕佳 《计算机应用》2019,39(8):2297-2301
针对协同训练算法对模糊度高的样本容易标记错误导致分类器精度降低和协同训练在迭代时选择加入的无标记样本隐含有用信息不够的问题,提出了一种结合主动学习和密度峰值聚类的协同训练算法。在每次迭代之前,先选择模糊度高的无标记样本主动标记后加入有标记样本集,然后利用密度峰值聚类对无标记样本聚类得到每个无标记样本的密度和相对距离。迭代时选择具有较高密度和相对距离较远的无标记样本交由朴素贝叶斯(NB)分类,反复上述过程直到满足终止条件。利用主动学习标记模糊度高的样本能够改善分类器误标记识别问题,利用密度峰值聚类能够选择出较好表现数据空间结构的样本。在UCI的8个数据集和Kaggle的pima数据集上的实验表明,与SSLNBCA算法相比,所提算法的准确率最高提升6.7个百分点,平均提升1.46个百分点。  相似文献   

16.
属性约简是粗糙集理论中重要的研究内容之一,是数据挖掘中知识获取的关键步骤。Pawlak粗糙集约简的对象一般是有标记的决策表或者是无标记的信息表。而在很多现实问题中有标记数据很有限,更多的是无标记数据,即半监督数据。为此,结合半监督协同学习理论,提出了处理半监督数据的属性约简算法。该算法首先在有标记数据上构造两个差异性较大的约简来构造基分类器;然后在无标记数据上交互协同学习,扩大有标记数据集,获得质量更好的约简,构造性能更好的分类器,该过程迭代进行,从而实现利用无标记数据提高有标记数据的约简质量,最终获得质量较好的属性约简。UCI数据集上的实验分析表明,该算法是有效且可行的。  相似文献   

17.
杜友田  李谦  周亚东  吴陈鹤 《自动化学报》2012,38(12):1923-1932
网络图像通常包含文本、颜色和纹理等异质信息. 本文提出了一种基于多类异质信息融合的网络图像半监督学习方法---局部协同训练(Local co-training, LCT). 该方法在每个视图(对应一类 信息)上对每个样本点的邻域构建线性局部模型, 利用一组局部模型来表示数据关系;基于信息传播和协同训练对模型进行增量式迭代更新. 该算法在协同训练和基于图正则化的方法这两类半监督学习算法间建立了桥梁. 局部协同训练算法能够准确地描述样本的复杂分布, 并且可以进行高效的增量学习, 有利于大规模网络图像的在线学习. 在Corel, Pascal和ImageNet数据集上的实验结果表明该方法具有良好的性能.  相似文献   

18.
基于半监督学习和支持向量机的煤与瓦斯突出预测研究   总被引:1,自引:1,他引:0  
针对支持向量机要求输入向量为已标记样本,而实际应用中已标记样本很难获取的问题,提出将半监督学习和支持向量机结合的煤与瓦斯突出预测方法;介绍了采用SVM预测煤与瓦斯突出的流程及其输入向量的选择;对半监督学习中的协同训练算法进行了改进:在同一属性集上训练2个不同分类器SVM和KNN,将2个分类器标记一致的样本加入训练集,从而充分利用未标记样本不断补充信息,更新训练集标记样本,达到强化训练集的目的。测试结果表明,改进后的算法比单独的支持向量机预测方法准确率更高。  相似文献   

19.
Chen  Ailin  Yang  Pin  Cheng  Pengsen 《The Journal of supercomputing》2022,78(2):2744-2771

The rumors, advertisements and malicious links are spread in social networks by social spammers, which affect users’ normal access to social networks and cause security problems. Most methods aim to detect social spammers by various features, such as content features, behavior features and relationship graph features, which rely on a large-scale labeled data. However, labeled data are lacking for training in real world, and manual annotating is time-consuming and labor-intensive. To solve this problem, we propose a novel method which combines active learning algorithm with co-training algorithm to make full use of unlabeled data. In co-training, user features are divided into two views without overlap. Classifiers are trained iteratively with labeled instances and the most confident unlabeled instances with pseudo-labels. In active learning, the most representative and uncertain instances are selected and annotated with real labels to extend labeled dataset. Experimental results on the Twitter and Apontador datasets show that our method can effectively detect social spammers in the case of limited labeled data.

  相似文献   

20.
吕佳  鲜焱 《计算机应用》2021,41(3):686-693
针对协同训练算法在迭代过程中加入的无标记样本的有用信息不足和多分类器对样本标记不一致导致的分类错误累积问题,提出结合改进密度峰值聚类和共享子空间的协同训练算法。该算法先采取属性集合互补的方式得到两个基分类器,然后基于虹吸平衡法则进行改进密度峰值聚类,并从簇中心出发来推进式选择相互邻近度高的无标记样本交由两个基分类器进行分类,最后利用多视图非负矩阵分解算法得到的共享子空间来确定标记不一致样本的最终类别。该算法利用改进密度峰值聚类和相互邻近度选择出更具空间结构代表性的无标记样本,并采用共享子空间来修订标记不一致的样本,解决了因样本误分类造成的分类精度低的问题。在9个UCI数据集上的多组对比实验证明了该算法的有效性,实验结果表明所提算法相较于对比算法在7个数据集上取得最高的分类正确率,在另2个数据集取得次高的分类正确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号