首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 214 毫秒
1.
李延超  肖甫  陈志  李博 《软件学报》2020,31(12):3808-3822
主动学习从大量无标记样本中挑选样本交给专家标记.现有的批抽样主动学习算法主要受3个限制:(1)一些主动学习方法基于单选择准则或对数据、模型设定假设,这类方法很难找到既有不确定性又有代表性的未标记样本;(2)现有批抽样主动学习方法的性能很大程度上依赖于样本之间相似性度量的准确性,例如预定义函数或差异性衡量;(3)噪声标签问题一直影响批抽样主动学习算法的性能.提出一种基于深度学习批抽样的主动学习方法.通过深度神经网络生成标记和未标记样本的学习表示和采用标签循环模式,使得标记样本与未标记样本建立联系,再回到相同标签的标记样本.这样同时考虑了样本的不确定性和代表性,并且算法对噪声标签具有鲁棒性.在提出的批抽样主动学习方法中,算法使用的子模块函数确保选择的样本集合具有多样性.此外,自适应参数的优化,使得主动学习算法可以自动平衡样本的不确定性和代表性.将提出的主动学习方法应用到半监督分类和半监督聚类中,实验结果表明,所提出的主动学习方法的性能优于现有的一些先进的方法.  相似文献   

2.
李远航  刘波  唐侨 《计算机科学》2014,41(11):260-264
主动学习已经广泛应用于图数据的研究,但应用于多标签图数据的分类较为少见。结合基于误差界最小化的主动学习,给出了一种多标签图数据的分类方法,即通过多标签分类与局部和全局的一致性学习(LLGC)得到一系列目标方程,并将其用于最小化直推式的拉德马赫复杂度,得到最小泛化误差上界,从而在图上获取少量的但蕴含巨大信息量的节点。实验证明,应用该方法的多标签分类器的输出有很高的精确度。  相似文献   

3.
主动学习算法综述   总被引:1,自引:0,他引:1  
主动学习算法作为构造有效训练集的方法,其目标是通过迭代抽样,寻找有利于提升分类效果的样本,进而减少分类训练集的大小,在有限的时间和资源的前提下,提高分类算法的效率。主动学习已成为模式识别、机器学习和数据挖掘领域的研究热点问题。介绍了主动学习的基本思想,一些最新研究成果及其算法分析,并提出和分析了有待进一步研究的问题。  相似文献   

4.
提出了基于SVM的主动学习算法,用来解决蛋白质相互作用的预测问题。细胞中的生物过程是通过蛋白质相互作用实现的。但是通过实验验证蛋白质之间是否具有相互作用的代价非常大,而且数据很难获取。为了在有限的阳性样本情况下更加快速准确地预测蛋白质之间是否具有相互作用,引入了主动学习方法。主动学习算法可以用来构造有效训练集,其目标是通过迭代抽样,每次寻找最富有信息量的数据点,找到最有利于提升分类效果的样本,进而减小分类训练集的大小。比较了5种不同的主动学习算法,以寻找在有限资源前提下提高分类算法效率的最佳途径。实验表明,主动学习方法与SVM算法相结合,能够在保证SVM分类性能的前提下,有效减少学习所需的样本数量。  相似文献   

5.
高光谱图像监督分类中,为了避免休斯效应需要大量的训练样本,但在实际应用中对样本进行标注成本非常高,因此,得到高质量的训练样本显得十分重要。提出一种基于主动学习的高光谱图像分类方法,通过对区域关注度的统计,有效地结合图像光谱和空间特性,基于主动学习方法获取信息量较大的训练样本,从而较大幅度提高了分类的精确度。实验结果表明,所提算法比传统的随机取样监督分类法和主动学习方法在分类精确度上有较大的优势。  相似文献   

6.
离群点检测任务通常缺少可用的标注数据,且离群数据只占整个数据集的很小一部分,相较于其他的数据挖掘任务,离群点检测的难度较大,尚没有单一的算法适合于所有的场景。因此,结合多样性模型集成和主动学习思想,提出了一种基于主动学习的离群点集成检测方法OMAL(Outlier Mining based on Active Learning)。在主动学习框架指导下,根据各种基学习器的对比分析,选择了基于统计的、基于相似性的、基于子空间划分的三个无监督模型作为基学习器。将各基学习器评判的处于离群和正常边界的数据整合后呈现给人类专家进行标注,以最大化人类专家反馈的信息量;从标注的数据集和各基学习器投票产生的数据集中抽样,基于GBM(Gradient BoostingMachine)训练一个有监督二元分类模型,并将该模型应用于全数据集,得出最终的挖掘结果。实验表明,提出方法的AUC有了较为明显的提升,且具有良好的运行效率,具备较好的实用价值。  相似文献   

7.
实时数据流中标记样本所占比例较小,并且存在大量的噪声数据和冗余数据,导致数据流的实时分类准确率较低。针对这种情况,提出基于拉普拉斯回归主动学习的大数据流分类算法。为分类器设计相对支持度差异函数作为分类的决策方法,通过阈值判断当前数据流的标记样本量。设计基于约束规则的半监督主动学习算法,从无标记样本集选择信息量最丰富的样本。采用拉普拉斯正则最小二乘回归模型作为半监督学习的回归模型,迭代地扩展数据流的标记样本量。仿真结果表明,该算法有效地提高了数据流的分类准确率,并且满足实时性的需求。  相似文献   

8.
本文提出了基于主动学习的分类融合算法,将度量层输出的分类器融合问题看作二级分类器的设计问题,将SVM主动学习引入二级分类器设计。该算法在有效减少标注代价的同时获得了较高的分类性能。实验证明该算法在分类性能和标注代价两方面都优于传统分类器融合方法。  相似文献   

9.
图像多分类主动学习方法   总被引:1,自引:0,他引:1       下载免费PDF全文
以决策速度快的决策导向非循环图支持向量机(Decision Directed Acyclic Graph Support Vector Machine)为基准分类器,结合主动学习的思想,提出了一种图像多分类主动学习方法。这种方法是一种半自动的图像语义分类方法,可以将图像分成多个语义类别。该方法在最近边界主动选择方法的基础上,提出一种基于质疑度的主动选择策略。这种策略将SVMactive中提出的最近邻SVM分类面选择的反馈样例策略延伸到多分类中,通过区别对待奇异样例和容易错分样例,减少了噪声数据对分类器的干扰,提高了分类的精度。  相似文献   

10.
不均衡数据集学习中基于初分类的过抽样算法   总被引:2,自引:0,他引:2  
韩慧  王路  温明  王文渊 《计算机应用》2006,26(8):1894-1897
为了有效地提高不均衡数据集中少数类的分类性能,提出了基于初分类的过抽样算法。首先,对测试集进行初分类,以尽可能多地保留多数类的有用信息;其次,对于被初分类预测为少数类的样本进行再次分类,以有效地提高少数类的分类性能。使用美国加州大学欧文分校的数据集将基于初分类的过抽样算法与合成少数类过抽样算法、欠抽样方法进行了实验比较。结果表明,基于初分类的过抽样算法的少数类与多数类的分类性能都优于其他两种算法。  相似文献   

11.
基于采样策略的主动学习算法研究进展   总被引:2,自引:0,他引:2  
主动学习算法通过选择信息含量大的未标记样例交由专家进行标记,多次循环使分类器的正确率逐步提高,进而在标记总代价最小的情况下获得分类器的强泛化能力,这一技术引起了国内外研究人员的关注.侧重从采样策略的角度,详细介绍了主动学习中学习引擎和采样引擎的工作过程,总结了主动学习算法的理论研究成果,详细评述了主动学习的研究现状和发展动态.首先,针对采样策略选择样例的不同方式将主动学习算法划分为不同类型,进而,对基于不同采样策略的主动学习算法进行了深入地分析和比较,讨论了各种算法适用的应用领域及其优缺点.最后指出了存在的开放性问题和进一步的研究方向.  相似文献   

12.
Software defect prediction can help us better understand and control software quality. Current defect prediction techniques are mainly based on a sufficient amount of historical project data. However, historical data is often not available for new projects and for many organizations. In this case, effective defect prediction is difficult to achieve. To address this problem, we propose sample-based methods for software defect prediction. For a large software system, we can select and test a small percentage of modules, and then build a defect prediction model to predict defect-proneness of the rest of the modules. In this paper, we describe three methods for selecting a sample: random sampling with conventional machine learners, random sampling with a semi-supervised learner and active sampling with active semi-supervised learner. To facilitate the active sampling, we propose a novel active semi-supervised learning method ACoForest which is able to sample the modules that are most helpful for learning a good prediction model. Our experiments on PROMISE datasets show that the proposed methods are effective and have potential to be applied to industrial practice.  相似文献   

13.
Uncertainty sampling is an effective method for performing active learning that is computationally efficient compared to other active learning methods such as loss-reduction methods. However, unlike loss-reduction methods, uncertainty sampling cannot minimize total misclassification costs when errors incur different costs. This paper introduces a method for performing cost-sensitive uncertainty sampling that makes use of self-training. We show that, even when misclassification costs are equal, this self-training approach results in faster reduction of loss as a function of number of points labeled and more reliable posterior probability estimates as compared to standard uncertainty sampling. We also show why other more naive methods of modifying uncertainty sampling to minimize total misclassification costs will not always work well.  相似文献   

14.
Active learning for logistic regression: an evaluation   总被引:1,自引:1,他引:1  
Which active learning methods can we expect to yield good performance in learning binary and multi-category logistic regression classifiers? Addressing this question is a natural first step in providing robust solutions for active learning across a wide variety of exponential models including maximum entropy, generalized linear, log-linear, and conditional random field models. For the logistic regression model we re-derive the variance reduction method known in experimental design circles as ‘A-optimality.’ We then run comparisons against different variations of the most widely used heuristic schemes: query by committee and uncertainty sampling, to discover which methods work best for different classes of problems and why. We find that among the strategies tested, the experimental design methods are most likely to match or beat a random sample baseline. The heuristic alternatives produced mixed results, with an uncertainty sampling variant called margin sampling and a derivative method called QBB-MM providing the most promising performance at very low computational cost. Computational running times of the experimental design methods were a bottleneck to the evaluations. Meanwhile, evaluation of the heuristic methods lead to an accumulation of negative results. We explore alternative evaluation design parameters to test whether these negative results are merely an artifact of settings where experimental design methods can be applied. The results demonstrate a need for improved active learning methods that will provide reliable performance at a reasonable computational cost.  相似文献   

15.
Sugiyama M  Ogawa H 《Neural computation》2000,12(12):2909-2940
The problem of designing input signals for optimal generalization is called active learning. In this article, we give a two-stage sampling scheme for reducing both the bias and variance, and based on this scheme, we propose two active learning methods. One is the multipoint search method applicable to arbitrary models. The effectiveness of this method is shown through computer simulations. The other is the optimal sampling method in trigonometric polynomial models. This method precisely specifies the optimal sampling locations.  相似文献   

16.
17.
选取最大可能预测错误样例的主动学习算法   总被引:5,自引:1,他引:4  
通过选取并提交专家标注最有信息量的样例,主动学习算法中可以有效地减轻标注大量未标注样例的负担.采样是主动学习算法中一个影响性能的关键因素.当前主流的采样算法往往考虑选取的样例尽可能平分版本空间.但这一方法假定版本空间中的每一假设都具有相同的概率成为目标函数,而这在真实世界问题中不可能满足.分析了平分版本策略的局限性.进而提出一种旨在尽可能最大限度减小版本空间的启发式采样算法MPWPS(the most possibly wrong-predicted sampling),该算法每次采样时选取当前分类器最有可能预测错误的样例,从而淘汰版本空间中多于半数的假设.这种方法使分类器在达到相同的分类正确率时,采样次数比当前主流的针对平分版本空间的主动学习算法采样次数更少.实验表明,在大多数数据集上,当达到相同的目标正确率时,MPWPS方法能够比传统的采样算法采样次数更少.  相似文献   

18.
主动学习通过主动选择要学习的样例进行标注,从而有效地降低学习算法的样本复杂度。针对当前主动学习算法普遍采用的平分版本空间策略,本文提出过半缩减版本空间的策略,这种策略避免了平分版本空间策略所要求的较强假设。基于过半缩减版本空间的策略,本文实现了一种选取具有最大可能性被误分类的样例作为训练样例的启发式主动动学习算法(CBMPMS)。该算法计算版本空间中随机抽取的假设组成的委员会和当前学习器对样例预测的类概率差异的熵,以此作为选择样例的标准。针对UCI数据集的实验表明,该算法能够在大多数数据集上取得比相关研究更好的性能。  相似文献   

19.
基于深度贝叶斯主动学习的高光谱图像分类   总被引:1,自引:0,他引:1       下载免费PDF全文
针对高光谱图像分类中标记样本获取费时费力,无标记数据难以得到有效利用以及主动学习与深度学习结合难等问题,结合贝叶斯深度学习与主动学习的最新进展,提出一种基于深度贝叶斯的主动学习高光谱图像分类算法。利用少量标记样本训练一个卷积神经网络模型,根据与贝叶斯方法结合的主动学习采样策略从无标记样本中选择模型分类最不确定性的样本,选取的样本经人工标记后加入到训练集重新训练模型,减小模型不确定性,提高模型分类精度。通过PaviaU高光谱图像分类的实验结果表明,在少量的标记样本下,提出的方法比传统的方法分类效果更好。  相似文献   

20.
环境音分类是当前语音识别领域的研究热点。主动学习是利用未标记数据,在少量标记数据代价下提高监督学习算法的分类性能的方法。文中提出了熵优先采样(Entropy Priority Sampling,EPS)方法和简单不一致采样(Simple Disagreement Sampling,SDS)方法作为主动学习选择样本的策略。针对环境音数据,提取11维的CELP音频特征,采用单一分类器与EPS,SDS方法对不同标记训练样本比例下的分类实验结果进行了比较分析。结果表明,主动学习方法在标记样本数较少的情况下,能取得较好的分类效果,并且EPS方法的性能优于SDS方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号