首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
自动分类是数据挖掘和机器学习中非常重要的研究领域.针对难以获得大量有类标签的训练集问题,提出了基于小规模训练集的增量式贝叶斯分类,给出增量式贝叶斯分类机理参数计算及其算法.对算法分两种情况处理:第一种情况是新增样本有类别标签,则利用现有分类器检验其类标签,如果匹配则保留当前分类器,否则利用新样本修正分类器;第二种情况是新增样本无类别标签,则利用现有分类器为其训练类标签,然后利用新样本来修正分类器.实验结果表明,该算法是可行有效的,比简单贝叶斯分类算法有更高的精度.增量式贝叶斯分类算法的提出为分类器的更新提供了一条新途径.  相似文献   

2.
&#  &#  &#  &#  &# 《西华大学学报(自然科学版)》2015,34(6):53-57
为提高网络入侵检测的分类效率,提出一种结合主动学习和半监督学习的入侵检测算法。结合入侵检测实际,对主动学习算法进行简化,用有标记样本训练生成2个分类器,实现对未标记样本的预测;将2个分类器预测不一致的未标记样本作为信息量丰富的样本,使用半监督学习算法进行标记;最后, 把新增加的新标记样本添加到主动学习和半监督学习的训练集中,训练各自分类器, 反复迭代直到未标记样本集为空, 并用最新的有标记样本集训练形成最终的分类器。使用KDD CUP 99数据集进行入侵检测实验,其结果表明,与SVM方法相比,其分类率提高了4.3%,且较好地缩减了问题规模。    相似文献   

3.
文本自动分类是数据挖掘和机器学习中非常重要的研究领域 .针对难以获得大量有类标签的训练集问题 ,提出了基于小规模标注语料的增量式Bayes文本分类算法 .该算法分两种情况处理 :第一种情况是新增样本有类标签 ,可直接重新计算样本属于某类别的条件概率 .第二种情况是新增样本无类标签 ,则利用现有分类器为其训练类标签 ,然后利用新样本来修正分类器 .实验结果表明 ,该算法是可行有效的 ,比Na veBayes文本分类算法有更高的精度 .增量式Bayes分类算法的提出为分类器的更新提供了一条新途径  相似文献   

4.
为提高半监督分类的性能,提出一种安全的基于分歧的半监督分类算法Safe Co-SSC。通过有标记样本训练3个有监督分类器,利用无标记样本的信息增加分类器的差异性,采取3个分类器加权投票的策略实现对无标记样本的伪标记;对伪标记样本进行二次验证,选用能使分类器误差减小的新增标记样本扩充标记样本集。保证新样本的添加既减小了分类器的分类误差,又提高了分类器的分歧性。对UCI数据集进行分类实验的结果表明,该算法具有较高的分类率和样本标记率。    相似文献   

5.
针对因特网流量分类面临的流量类别标记瓶颈和类别样本数分布不平衡,提出基于Bootstrapping的流量分类方法,使用少量有标记样本训练初始分类器,迭代利用无标记样本扩展样本集并更新分类器. 在构建扩展样本集过程中,将无标记样本在某后验概率分布下的正确分类行为视为一个概率事件,建立新的置信度计算方法,以减少扩展样本集中的噪声样本;基于概率近似正确学习理论建立启发式规则,注重选择小类样本加入扩展样本集,缓解类别样本数分布的不平衡. 实验结果表明,与初始分类器相比,基于Bootstrapping的流量分类器总体分类准确率可提高9.46%;与现有半监督学习方法相比,小类分类准确率提高2.22%.  相似文献   

6.
基于信息熵的半监督领域实体关系抽取研究   总被引:1,自引:1,他引:0  
针对监督机器学习方法抽取实体关系受限于标注语料的规模问题,提出采用信息熵方法来不断扩展小规模训练数据的半监督领域实体关系抽取。结合领域词汇选取小规模训练数据,构建了一定准确率的初始最大熵分类器,用来从未标记数据中预测出候选新实例。采用信息熵方法,通过设定不同熵值,多次循环以选取可信度较高的新实例来扩展训练数据。使用扩展后的训练数据重新迭代训练分类器,分类器性能趋于稳定迭代终止,实现了半监督学习的领域实体关系抽取。实验表明,和已有方法相比,本文提出的半监督领域实体关系抽取通过结合信息熵方法,在小规模标注样本环境中取得了较好的学习效果。  相似文献   

7.
多标记学习中通常存在大量未标记示例,本研究结合协同训练(Co-training)方法充分利用数据集中的未标记示例,在数据集上选取局部k NN(k nearest neighbor)和全局k NN进行训练得到两个分类器,分类器分别标记未标记示例并相互更新训练集。协同训练过程不断迭代进行,直至训练完成。试验结果表明,该方法性能均优于其他多标记学习算法。  相似文献   

8.
提出一种基于主动学习的微钙化簇区域检测新算法,利用方向差分滤波器组对微钙化区域进行增强和特征提取,同时抑制高亮血管和导管等复杂区域的干扰; 利用基于Bootstrap的主动学习样本方法进行样本选择和分类器训练; 采用训练后的分类器实现乳腺X-线图像中钙化簇区域检测.实验结果表明,相对于被动学习的分类器检测效果,新算法在保持检出率的同时使假阳性率降低了约4.7%,取得了较好的检测效果.  相似文献   

9.
针对信息增益算法只能考察特征对整个系统的贡献、忽略特征对单个类别的信息贡献的问题,提出改进信息增益算法,通过引入权重系数调整对分类有重要价值的特征的信息增益值,以更好地考虑一个词在类别间的分布不均匀性. 针对传统专利自动分类中训练集标注瓶颈问题,提出基于改进三体训练算法的半监督分类方法,通过追踪每次更新后的训练集样本类别分布来动态改变3个分类器对同一未标记样本类别的预测概率阈值,从而在降低噪音数据影响的同时实现对未标记训练样本的充分利用. 实验结果表明,本研究所提出的分类方法在有标记训练样本较少的情况下,可以取得较好的自动分类效果,并且适当增大未标记样本数据可以增强分类器的泛化能力.  相似文献   

10.
利用模糊神经网络(FNN)的学习能力从控制操作的现场数据中获取模糊规则,并自动调节隶属函数,把建模的过程转化为FNN网络结构多数的生成与学习问题。用于一个非线性过程的模糊模型参数辨识问题,取得了满意的结果。  相似文献   

11.
利用序列数据语义标注学习方法来解决异构数据源的模式匹配问题,将从多个网站抽取的异构Web对象集成到关系数据库中.在线性链条件随机场的基础上提出了一种可叠加多阶链的组合条件随机场模型.该模型可以在由手工标注数据和关系数据库记录组成的联合样本集上进行训练,因此减少了对繁琐手工标注样本的依赖;此外,通过在线性链条件随机场模型上叠加高阶链,使得该模型能够有效地处理状态变量间的长距离依赖.在多个领域的真实数据集上的实验和分析结果表明,所提出的方法能显著提高异构Web数据的字段标注性能.  相似文献   

12.
深度学习模型训练需要大量的有标签数据进行训练,现实生活中数据大多没有标签,需要进行人工标注,对于小样本的训练存在过拟合现象,针对此问题,本文提出一种算法:首先采用稀疏编码器对数据进行降维处理,然后利用T-SNE算法继续将数据维度降低到二维空间,最后采用高斯混合模型对数据进行聚类分析。该算法采用无监督斱法,不需要预先对数据进行标签化。该算法对数据过拟合具有一定的泛化能力,在手写数据集的训练集取得0.89205的准确度,在测试集中取得0.896的精度。该算法为小样本的学习提供了新思路。  相似文献   

13.
针对变压器型号多、图像复杂,以及传统基于机器学习的人工设计特征的方法不能对大规模变压器图像准确分类等问题提出了基于深度学习的变压器图像识别系统直接对原始图像进行"端对端"的学习。为实现变压器图像的准确分类,提出了改进VGG-16卷积神经网络的变压器图像识别模型。在VGG-16模型的基础上,重新构建了全连接层,针对原有的SoftMax分类器,采用3标签的SoftMax分类器进行替换,以实现网络结构优化,并通过迁移学习共享V GG-16模型卷积层和降采样层的权值参数。通过构建变压器图像的训练集和测试集对改进模型进行了训练,并进行性能测试。结果表明,与深度神经网络、卷积神经网络模型相比,改进VGG-16模型具有更好的效果,识别误差达到了9.17%,并实现了对3种变压器的准确区分。  相似文献   

14.
传统支持向量机在处理包含大量未知类别样本的训练集时性能较差。针对这一不足,在少量已知类别样本和大量未知类别样本构成的训练集上,提出一种基于蚁群聚类算法的支持向量机半监督式学习方法。该方法应用蚁群聚类算法进行聚类分析,实现了同类样本的自组织聚类;通过一个递归的类别判定算法,回收样本类别;同时,提取各类簇之间靠得相对较近的边界样本组成精简训练集,以缩减训练集规模加快学习速度。实验表明,该算法能够自适应样本类别分布,有较高的分类精度和泛化能力。  相似文献   

15.
针对高光谱遥感图像分类中带标记训练样本较少、导致分类正确率偏低的问题,提出用于高光谱图像分类的空间约束半监督高斯过程方法.由于高光谱图像的特征空间满足流形分布假设,大量未标记样本可以使数据空间变得更加稠密,从而有助于更加准确地刻画局部空间特性,提高分类的精度和普适性.通过对高斯过程模型中的核函数施加空间近邻约束,建立未标记样本与带标记样本之间的空间联系.该半监督高斯过程分类器不仅可以提升高光谱遥感图像的分类性能,而且构造简单,实现方便.实验结果表明,在仅有少量带标记的训练样本情况下,半监督高斯过程分类方法对高光谱图像有较高的分类精度和稳定性.  相似文献   

16.
为缓解基于半监督学习的水面目标检测对有限标注样本过拟合的问题,提高无标注样本中目标提取的有效性,提出了基于多视图交叉一致性学习的半监督水面目标检测算法。首先,该算法通过数据增强的方式为训练样本生成不同的视图以丰富数据集的多样性;然后,利用所提出的多视图目标判别器为无标注样本在线生成伪标签,有助于提取无标注样本的有效信息;最后,利用所提出的多视图交叉一致性学习使同一目标实例的不同视图的输出实现交叉一致性正则化,以促进检测模型学习判别性的特征从而降低过拟合的风险。在海上和内河数据集上的实验结果表明:文中所提算法能够提高特征提取的判别性,对多类别的水面目标检测精度达到91.0%,比全监督检测算法提高了18.7%,比其他半监督检测算法提高了3.8%以上;在检测速度上,该算法达到13.1帧/s,基本满足实时性要求。所提算法通过多视图交叉一致性学习提高特征的判别性和缓解检测模型的过拟合风险,有助于提高半监督水面目标检测的性能。  相似文献   

17.
为了提高性别检测的精度,提出了一种支持向量机(SVM)与主动外观模型(AAM)相结合的迭代学习算法.采用AAM对初始训练样本建模,在此基础上构造SVM分类器.在当前迭代过程所产生的支持向量中随机选择不同性别的样本,对其AAM参数线性插值而生成一系列伪样本,并从中选取被当前分类器误分类或正确分类但分类可信度低的样本参与下次迭代学习.实验结果表明,采用该算法所构造的伪样本是初始训练样本的有效补充,提出的伪样本选择方案优于传统的Bootstrap方法,迭代学习方法逐步提高了性别分类器的检测精度.  相似文献   

18.
在支持向量机(SVM)方法中采用模糊☆近邻方法进行样本预选取,旨在保留最优分类超平面附近的样本点,去除远处样本点,使训练样本集减小,消除冗余,从而减小所需内存.实验结果表明,该方法无论是训练速度还是分类精度都远远好于单独的SVM分类器.  相似文献   

19.
提出了一种基于加权特征的图像自动标注方法.该方法首先采用加权特征聚类算法对图像区域进行语义聚类,这种聚类算法根据图像特征的统计分布来计算特征与类别的相关度,增加相关度高的特征的权重,避免聚类算法被弱相关或不相关的特征所支配;然后,根据训练集中样本图像的标注情况建立图像区域与语义关键字的关联;最后,在未标注图像区域给定时,计算每个语义关键字的条件概率,将条件概率最大的语义概念作为图像的标注. 在Corel图像库的数据集上验证了新方法的有效性.  相似文献   

20.
针对分割神经网络需要大量的高质量标签但较难获取的问题,提出基于3D scSE-UNet的半监督学习分割方法. 该方法使用自训练的半监督学习框架,将包含改进的并行空间/特征通道压缩和激励模块(scSE-block+)的3D scSE-UNet作为分割网络. scSE-block+可以从图像空间和特征通道2个方面自动学习图像的有效特征,抑制无用冗余特征,更好地保留图像边缘信息. 在自训练过程中加入全连接条件随机场,对分割网络产生的伪标签进行边缘细化,提升伪标签的精确度. 在LiTS17 Challenge和SLIVER07数据集上验证所提出方法的有效性. 当有标签图像占训练集总图像的30%时,所提方法的Dice相似系数(dice score)为0.941. 结果表明,所提出的半监督学习分割方法可以在仅使用少量标注数据的情况下,取得与全监督分割方法相当的分割效果,有效减轻肝脏CT图像分割对专家标注数据的依赖.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号