首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 640 毫秒
1.
基于池的无监督线性回归主动学习   总被引:2,自引:0,他引:2  
刘子昂  蒋雪  伍冬睿 《自动化学报》2021,47(12):2771-2783
在许多现实的机器学习应用场景中, 获取大量未标注的数据是很容易的, 但标注过程需要花费大量的时间和经济成本. 因此, 在这种情况下, 需要选择一些最有价值的样本进行标注, 从而只利用较少的标注数据就能训练出较好的机器学习模型. 目前, 主动学习(Active learning)已广泛应用于解决这种场景下的问题. 但是, 大多数现有的主动学习方法都是基于有监督场景: 能够从少量带标签的样本中训练初始模型, 基于模型查询新的样本, 然后迭代更新模型. 无监督情况下的主动学习却很少有人考虑, 即在不知道任何标签信息的情况下最佳地选择要标注的初始训练样本. 这种场景下, 主动学习问题变得更加困难, 因为无法利用任何标签信息. 针对这一场景, 本文研究了基于池的无监督线性回归问题, 提出了一种新的主动学习方法, 该方法同时考虑了信息性、代表性和多样性这三个标准. 本文在3个不同的线性回归模型(岭回归、LASSO (Least absolute shrinkage and selection operator)和线性支持向量回归)和来自不同应用领域的12个数据集上进行了广泛的实验, 验证了其有效性.  相似文献   

2.
一种利用近邻和信息熵的主动文本标注方法   总被引:1,自引:0,他引:1  
由于大规模标注文本数据费时费力,利用少量标注样本和大量未标注样本的半监督文本分类发展迅速.在半监督文本分类中,少量标注样本主要用来初始化分类模型,其合理性将影响最终分类模型的性能.为了使标注样本尽可能吻合原始数据的分布,提出一种避开选择已标注样本的K近邻来抽取下一组候选标注样本的方法,使得分布在不同区域的样本有更多的标注机会.在此基础上,为了获得更多的类别信息,在候选标注样本中选择信息熵最大的样本作为最终的标注样本.真实文本数据上的实验表明了提出方法的有效性.  相似文献   

3.
半监督学习中当未标注样本与标注样本分布不同时,将导致分类器偏离目标数据的主题,降低分类器的正确性.文中采用迁移学习技术,提出一种TranCo-Training分类模型.每次迭代,根据每个未标注样本与其近邻标注样本的分类一致性计算其迁移能力,并根据迁移能力从辅助数据集向目标数据集迁移实例.理论分析表明,辅助样本的迁移能力与其训练错误损失成反比,该方法能将训练错误损失最小化,避免负迁移,从而解决半监督学习中的主题偏离问题.实验表明,TranCo-Training优于随机选择未标注样本的RdCo-Training算法,尤其是给定少量的标注目标样本和大量的辅助未标注样本时.  相似文献   

4.
吕天根  洪日昌  何军  胡社教 《软件学报》2023,34(5):2068-2082
深度学习模型取得了令人瞩目的成绩,但其训练依赖于大量的标注样本,在标注样本匮乏的场景下模型表现不尽人意.针对这一问题,近年来以研究如何从少量样本快速学习的小样本学习被提了出来,方法主要采用元学习方式对模型进行训练,取得了不错的学习效果.但现有方法:1)通常仅基于样本的视觉特征来识别新类别,信息源较为单一; 2)元学习的使用使得模型从大量相似的小样本任务中学习通用的、可迁移的知识,不可避免地导致模型特征空间趋于一般化,存在样本特征表达不充分、不准确的问题.为解决上述问题,将预训练技术和多模态学习技术引入小样本学习过程,提出基于多模态引导的局部特征选择小样本学习方法.所提方法首先在包含大量样本的已知类别上进行模型预训练,旨在提升模型的特征表达能力;而后在元学习阶段,方法利用元学习对模型进行进一步优化,旨在提升模型的迁移能力或对小样本环境的适应能力,所提方法同时基于样本的视觉特征和文本特征进行局部特征选择来提升样本特征的表达能力,以避免元学习过程中模型特征表达能力的大幅下降;最后所提方法利用选择后的样本特征进行小样本学习.在MiniImageNet、CIFAR-FS和FC-100这3个基准数...  相似文献   

5.
多数分类识别算法需要大量的已标注样本对分类模型进行训练。实际应用中,对大量样本进行标注枯燥耗时且代价昂贵,因此能够获得的已标注样本数量非常有限。将基于不确定性样本的主动学习和代表性样本的自学习方法引入到基于支持向量数据描述的分类模型中,提出了一种新的分类识别方法。通过主动学习去挖掘那些对当前分类模型最有价值的样本进行人工标注,并借助自学习方法进一步利用样本集中大量的未标注样本,使得在花费较小的标注代价下,能够获得良好的分类性能。在潜艇机械噪声源识别问题上的实验结果验证了该方法能有效降低样本标注代价。  相似文献   

6.
基于集成学习的半监督情感分类方法研究   总被引:1,自引:0,他引:1  
情感分类旨在对文本所表达的情感色彩类别进行分类的任务。该文研究基于半监督学习的情感分类方法,即在很少规模的标注样本的基础上,借助非标注样本提高情感分类性能。为了提高半监督学习能力,该文提出了一种基于一致性标签的集成方法,用于融合两种主流的半监督情感分类方法:基于随机特征子空间的协同训练方法和标签传播方法。首先,使用这两种半监督学习方法训练出的分类器对未标注样本进行标注;其次,选取出标注一致的未标注样本;最后,使用这些挑选出的样本更新训练模型。实验结果表明,该方法能够有效降低对未标注样本的误标注率,从而获得比任一种半监督学习方法更好的分类效果。  相似文献   

7.
当标注样本匮乏时,半监督学习利用大量未标注样本解决标注瓶颈的问题,但由于未标注样本和标注样本来自不同领域,可能造成未标注样本存在质量问题,使得模型的泛化能力变差,导致分类精度下降.为此,基于wordMixup方法,提出针对未标注样本进行数据增强的u-wordMixup方法,结合一致性训练框架和Mean Teacher模型,提出一种基于u-wordMixup的半监督深度学习模型(semi-supervised deep learning model based on u-wordMixup,SD-uwM).该模型利用u-wordMixup方法对未标注样本进行数据增强,在有监督交叉熵和无监督一致性损失的约束下,能够提高未标注样本质量,减少过度拟合.在AGNews、THUCNews和20 Newsgroups数据集上的对比实验结果表明,所提出方法能够提高模型的泛化能力,同时有效提高时间性能.  相似文献   

8.
基于主动学习和半监督学习的多类图像分类   总被引:5,自引:0,他引:5  
陈荣  曹永锋  孙洪 《自动化学报》2011,37(8):954-962
多数图像分类算法需要大量的训练样本对分类器模型进行训练.在实际应用中, 对大量样本进行标注非常枯燥、耗时.对于一些特殊图像,如合成孔径雷达 (Synthetic aperture radar, SAR)图像, 对其内容判读非常困难,因此能够获得的标注样本数量非常有限. 本文将基于最优标号和次优标号(Best vs second-best, BvSB)的主动学习和带约束条件的自学习(Constrained self-training, CST) 引入到基于支持向量机(Support vector machine, SVM)分类器的图像分类算法中,提出了一种新的图像分类方法.通过BvSB 主动学习去挖掘那些对当前分类器模型最有价值的样本进行人工标注,并借助CST半 监督学习进一步利用样本集中大量的未标注样本,使得在花费较小标注代价情况下, 能够获得良好的分类性能.将新方法与随机样本选择、基于熵的不确定性采样主动学 习算法以及BvSB主动学习方法进行了性能比较.对3个光学图像集及1个SAR图像集分类 问题的实验结果显示,新方法能够有效地减少分类器训练时所需的人工标注样本的数 量,并获得较高的准确率和较好的鲁棒性.  相似文献   

9.
对于建立动态贝叶斯网络(DBN)分类模型时,带有类标注样本数据集获得困难的问题,提出一种基于EM和分类损失的半监督主动DBN学习算法.半监督学习中的EM算法可以有效利用未标注样本数据来学习DBN分类模型,但是由于迭代过程中易于加入错误的样本分类信息而影响模型的准确性.基于分类损失的主动学习借鉴到EM学习中,可以自主选择有用的未标注样本来请求用户标注,当把这些样本加入训练集后能够最大程度减少模型对未标注样本分类的不确定性.实验表明,该算法能够显著提高DBN学习器的效率和性能,并快速收敛于预定的分类精度.  相似文献   

10.
任权 《中文信息学报》2021,34(12):65-72
细粒度实体分类任务作为命名实体识别任务的扩展,其目的是根据指称及其上下文,发掘实体更细粒度的类别含义。由于细粒度实体语料的标注代价较大,标注错误率较高,因此该文研究了在少量样本情况下的细粒度实体分类方法。该文首先提出了一种特征提取模型,能够分别从单词层面以及字符层面提取实体信息,随后结合原型网络将多标签分类任务转化为单标签分类任务,通过缩小空间中同类样本与原型的距离实现分类。该文使用少样本学习以及零样本学习两种设置在公开数据集FIGER(GOLD)上进行了实验,在少样本学习的设置下,较基线模型在三个指标中均有提升,其中macro-F1的提升最大,为2.4%。  相似文献   

11.
潘雪玲  李国和  郑艺峰 《计算机应用研究》2023,40(10):2881-2888+2895
深度学习以数据为驱动,被广泛应用于各个领域,但由于数据隐私、标记昂贵等导致样本少、数据不完备性等问题,同时小样本难于准确地表示数据分布,使得分类模型误差较大,且泛化能力差。为此,小样本学习被提出,旨在利用较少目标数据训练模型快速学习的能力。系统梳理了近几年来小样本学习领域的相关工作,主要整理和总结了基于数据增强、基于元学习和基于转导图小样本学习方法的研究进展。首先,从基于监督增强和基于无监督增强阐述数据增强的主要特点。其次,从基于度量学习和基于参数优化两方面对基于元学习的方法进行分析。接着,详细总结转导图小样本学习方法,介绍常用的小样本数据集,并通过实验阐述分析具有代表性的小样本学习模型。最后总结现有方法的局限性,并对小样本学习的未来研究方向进行展望。  相似文献   

12.
小样本学习是面向小样本数据的机器学习,旨在利用较少的有监督样本数据去构建能够解决实际问题的机器学习模型。小样本学习能够解决传统机器学习方法在样本数据不充分时性能严重下降的问题,可以为新型小样本任务实现低成本和快速的模型部署,缩小人类智能与人工智能之间的距离,对推动发展通用型人工智能具有重要意义。从小样本学习的概念、基础模型和实际应用入手,系统梳理当前小样本学习的相关工作,将小样本学习方法分类为基于模型微调、基于数据增强、基于度量学习和基于元学习,并具体阐述这4大类方法的核心思想、基本模型、细分领域和最新研究进展,以及每一类方法在科学研究或实际应用中存在的问题,总结目前小样本学习研究的常用数据集和评价指标,整理基于部分典型小样本学习方法在Omniglot和Mini-ImageNet数据集上的实验结果。最后对各种小样本学习方法及其优缺点进行总结,分别从数据层面、理论研究和应用研究3个方面对小样本学习的未来研究方向进行展望。  相似文献   

13.
关系分类作为构建结构化知识的重要一环,在自然语言处理领域备受关注.但在很多应用领域中(如医疗、金融等领域)收集充足的用于训练关系分类模型的数据十分困难.近年来,仅需要少量训练样本的小样本学习逐渐应用于关系分类研究中.该文对近期小样本关系分类模型与方法进行了系统的综述.根据度量方法的不同,将现有方法分为原型式和分布式两大...  相似文献   

14.
目的 现有基于元学习的主流少样本学习方法假设训练任务和测试任务服从相同或相似的分布,然而在分布差异较大的跨域任务上,这些方法面临泛化能力弱、分类精度差等挑战。同时,基于迁移学习的少样本学习方法没有考虑到训练和测试阶段样本类别不一致的情况,在训练阶段未能留下足够的特征嵌入空间。为了提升模型在有限标注样本困境下的跨域图像分类能力,提出简洁的元迁移学习(compressed meta transfer learning,CMTL)方法。方法 基于元学习,对目标域中的支持集使用数据增强策略,构建新的辅助任务微调元训练参数,促使分类模型更加适用于域差异较大的目标任务。基于迁移学习,使用自压缩损失函数训练分类模型,以压缩源域中基类数据所占据的特征嵌入空间,微调阶段引导与源域分布差异较大的新类数据有更合适的特征表示。最后,将以上两种策略的分类预测融合视为最终的分类结果。结果 使用mini-ImageNet作为源域数据集进行训练,分别在EuroSAT(EuropeanSatellite)、ISIC(InternationalSkinImagingCollaboration)、CropDiseas(Cr...  相似文献   

15.
陈嘉言  任东东  李文斌  霍静  高阳 《软件学报》2024,35(5):2414-2429
小样本学习旨在模拟人类基于少数样例快速学习新事物的能力, 对解决样本匮乏情境下的深度学习任务具有重要意义. 但是, 在诸多计算资源有限的现实任务中, 模型规模仍可能限制小样本学习的广泛应用. 这对面向小样本学习的轻量化任务提出了现实的需求. 知识蒸馏作为深度学习领域广泛使用的辅助策略, 通过额外的监督信息实现模型间知识迁移, 在提升模型精度和压缩模型规模方面都有实际应用. 首先验证知识蒸馏策略在小样本学习模型轻量化中的有效性. 并结合小样本学习任务的特点, 针对性地设计两种新的小样本蒸馏方法: (1)基于图像局部特征的蒸馏方法; (2)基于辅助分类器的蒸馏方法. 在miniImageNet和TieredImageNet数据集上的相关实验证明所设计的新的蒸馏方法相较于传统知识蒸馏在小样本学习任务上具有显著优越性.  相似文献   

16.
空中无人机目标识别是现代军事、航空领域的迫切需求,由于目前无人机的功能和种类繁多,对于新机型很难采集大量的无人机样本用于训练目标识别模型;针对该问题,提出了一种基于模型微调的空中无人机小样本目标识别方法;方法以Faster R-CNN为基础架构,首先采用具有大量标记样本的常见机型数据预训练Faster R-CNN模型;然后将基础架构最后的分类层替换为余弦度量,构建联合新机型与常见机型的小样本平衡数据集以较小的学习率微调分类层。实验结果表明,在标记样本数量为5、10和50的情况下,基于模型微调的小样本目标识别模型的mAP分别为88.6%,89.2%和90.8%,能够满足空中无人机小样本目标识别任务需求,且优于其它小样本目标识别方法。  相似文献   

17.
如何从少数训练样本中学习并识别新的类别对于深度神经网络来说是一个具有挑战性的问题。针对如何解决少样本学习的问题,全面总结了现有的基于深度神经网络的少样本学习方法,涵盖了方法所用模型、数据集及评估结果等各个方面。具体地,针对基于深度神经网络的少样本学习方法,提出将其分为数据增强方法、迁移学习方法、度量学习方法和元学习方法四种类别;对于每个类别,进一步将其分为几个子类别,并且在每个类别与方法之间进行一系列比较,以显示各种方法的优劣和各自的特点。最后强调了现有方法的局限性,并指出了少样本学习研究领域未来的研究方向。  相似文献   

18.
近年来,以深度学习为基础的图像目标检测技术取得了显著成就,并涌现了许多成熟的检测模型,但这些模型均需要利用大量的标注样本进行训练,而在实际场景当中,往往很难获取到相应规模的高质量标注样本,从而限制了其在特定领域的应用和推广.由于对样本数量的依赖性小,小样本条件下的图像目标检测技术逐渐得到研究和发展.基于小样本图像目标检...  相似文献   

19.
目的 现有的深度学习模型往往需要大规模的训练数据,而小样本分类旨在识别只有少量带标签样本的目标类别。作为目前小样本学习的主流方法,基于度量的元学习方法在训练阶段大多没有使用小样本目标类的样本,导致这些模型的特征表示不能很好地泛化到目标类。为了提高基于元学习的小样本图像识别方法的泛化能力,本文提出了基于类别语义相似性监督的小样本图像识别方法。方法 采用经典的词嵌入模型GloVe(global vectors for word representation)学习得到图像数据集每个类别英文名称的词嵌入向量,利用类别词嵌入向量之间的余弦距离表示类别语义相似度。通过把类别之间的语义相关性作为先验知识进行整合,在模型训练阶段引入类别之间的语义相似性度量作为额外的监督信息,训练一个更具类别样本特征约束能力和泛化能力的特征表示。结果 在miniImageNet和tieredImageNet两个小样本学习基准数据集上进行了大量实验,验证提出方法的有效性。结果显示在miniImageNet数据集5-way 1-shot和5-way 5-shot设置上,提出的方法相比原型网络(prototypical networks)分类准确率分别提高1.9%和0.32%;在tieredImageNet数据集5-way 1-shot设置上,分类准确率相比原型网络提高0.33%。结论 提出基于类别语义相似性监督的小样本图像识别模型,提高小样本学习方法的泛化能力,提高小样本图像识别的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号