首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 23 毫秒
1.
针对信息增益算法只能考察特征对整个系统的贡献、忽略特征对单个类别的信息贡献的问题,提出改进信息增益算法,通过引入权重系数调整对分类有重要价值的特征的信息增益值,以更好地考虑一个词在类别间的分布不均匀性. 针对传统专利自动分类中训练集标注瓶颈问题,提出基于改进三体训练算法的半监督分类方法,通过追踪每次更新后的训练集样本类别分布来动态改变3个分类器对同一未标记样本类别的预测概率阈值,从而在降低噪音数据影响的同时实现对未标记训练样本的充分利用. 实验结果表明,本研究所提出的分类方法在有标记训练样本较少的情况下,可以取得较好的自动分类效果,并且适当增大未标记样本数据可以增强分类器的泛化能力.  相似文献   

2.
针对多元时间序列半监督回归只考虑样本间空间关系信息而忽略了样本间时域信息的问题,提出了一种考虑样本间时域信息的半监督回归算法(ST-LapRLSR).在时域光滑性假设下,构造了一种能更好地反映样本间内蕴几何结构的正则化项.在建立图拉普拉斯的过程中,将样本点间的时序关系引入到边的权重计算中,并在流形正则化框架下利用该正则化项进行半监督回归,最后通过表示定理进行求解.在公共数据集和煤矿多传感器数据上进行了实验,结果表明:在多元时间序列半监督回归中,与只考虑样本空间关系信息的最小二乘正则化算法(LapRLSR)相比,ST-LapRLSR能同时利用样本的时空信息,准确率得到了提高.  相似文献   

3.
针对高光谱数据维数高、有标签样本少等特点,采用半监督分类利用未标记样本信息提高高光谱图像分类精度。主动学习研究训练样本的选择方法,以少量的标记样本得到尽可能好的泛化能力。本文提出了一种结合主动学习算法的半监督分类算法。该方法使用支持向量机作为基本的学习模型,通过主动学习方法选取训练样本,以伪标记的形式加入到分类器的训练中,结合验证分类器迭代选出置信度较高的伪标记样本,通过差分进化算法交叉变异伪标记样本扩充标记样本群。在两个数据集上进行仿真实验,与传统分类算法相比,所提算法的总体分类精度分别提高了1.97%、0.49%,表明该算法能够有效地提升主动学习样本选择的效率,在有限带标记样本情况下提高了分类器精度。  相似文献   

4.
为了避免倾向于高频词的信息增益(information gain,IG)方法忽略各类别间的相似性特点,提出了一种基于特征分布的选择方法对IG进行修正,使真正拥有高类别区分信息的特征项被保留.同时,对最大期望值(expectation maximization,EM)算法的效率低下问题加以改进,将拥有较高后验类别概率的未标注文档逐步从未标注文档集转至已标注文档集,有效减少算法迭代次数.测试结果表明,基于特征分布的半监督学习方法在Reuter-21578和Epinion.com两个不同特点的数据集上都取得了较好的分类效果和性能.  相似文献   

5.
针对无监督的主题模型无法对图像主题进行类别标记、有监督主题模型中类别信息的标记繁琐且受主观因素影响的问题,提出了一种半监督主题模型。提取图像中与位置无关的局部特征,用尺度不变特征变换对特征进行描述,用词袋模型将人脸图像表示成一组视觉单词的集合;在基于隐含狄利克雷分配(latent Dirichlet allocation, LDA)方法中的主题-单词层分布上引入少量的类别标记指导未标记样本的分类的基础上提出半监督隐含狄利克雷分配方法。在多姿态人脸判别任务上的测试结果表明该算法比无监督LDA算法分类率高9.0%~24.7%;对于部分遮挡人脸图像、未对齐的人脸图像的分类率比多姿态主成分分析法分别提高8.8%和21.5%~39.8%。结果表明该方法在少量样本标记的情况下,性能逼近有监督的隐含狄利克雷分配方法,且适用于其它图像分类问题。  相似文献   

6.
为了充分利用监督信息指导聚类过程,提出自适应半监督邻域聚类算法(adaptive semi-supervised neighborhood clustering algorithm, SSCAN)。引入监督矩阵与距离度量结合,构造合理的相似矩阵;充分利用监督信息,通过标签信息矩阵与流形正则项结合调整模型,改善聚类效果。在多种数据集进行试验,并与其他聚类算法作对比,结果表明,SSCAN可以充分利用监督信息,提高聚类的准确率。  相似文献   

7.
针对不平衡数据中特征维数高、标记样本缺乏问题,提出一种基于遗传算法和BiasedSVM的不平衡数据半监督特征选择算法。该方法首先利用初始的标记样本集训练处理不平衡数据的Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中,得到新标记样本集,最后采用基于遗传算法的不平衡数据特征选择方法选出最优的特征子集。实验结果表明,所提方法在不同的标记样本率下均具有较高的平均特征子集缩减率和平均小类识别率。  相似文献   

8.
基于全监督学习的文本分类算法需要使用大量的标签数据,而文本数据的标注任务耗时耗力且标注难度较大。针对上述问题,提出了一种基于LOTClass模型的弱监督中文短文本分类算法。首先,使用少量的标签数据构建类别种子词表;其次,使用类别种子词表指导训练中文伪标签生成模型,并使用该模型生成大量伪标签数据;最后,利用优质伪标签数据训练一个中文短文本分类模型。在THUCNews新闻标题数据集和论文标题数据集上进行实验,结果表明,该算法在仅使用少量标签数据的情况下,其性能优于主流的半监督分类算法,同时不逊于一般的全监督分类算法,为无标签数据分类任务提供了一种较好的解决方案。  相似文献   

9.
为了在有标签的训练集中保留高质量的样本,首先利用无标签训练集得出置信度高的k个样本,再结合有标签训练样本,不断迭代直至训练完成。实验结果表明:随着无标记样本比例的不断增加,本文算法预测准确性明显高于朴素贝叶斯分类算法,而且其性能比传统半监督学习方法有所改善。  相似文献   

10.
为提高半监督分类的性能,提出一种安全的基于分歧的半监督分类算法Safe Co-SSC。通过有标记样本训练3个有监督分类器,利用无标记样本的信息增加分类器的差异性,采取3个分类器加权投票的策略实现对无标记样本的伪标记;对伪标记样本进行二次验证,选用能使分类器误差减小的新增标记样本扩充标记样本集。保证新样本的添加既减小了分类器的分类误差,又提高了分类器的分歧性。对UCI数据集进行分类实验的结果表明,该算法具有较高的分类率和样本标记率。    相似文献   

11.
针对高光谱数据波段多,地物标签获取代价高,带标记的样本数量少,分类过程中容易引起Hudges现象。本文提出一种基于改进的局部全局一致性(learning with local and global consistency,LLGC)算法的半监督分类方法。通过边缘采样法(margin sampling,MS)选取最富含信息量的无标签样本,加入到训练集来扩充训练样本;用KNN算法计算相似度进一步优选无标签样本,去除噪声点和存在的野值点;使用改进的局部全局一致性算法对无标签样本集进行分类标记,得到各类别的分类结果。实验结果表明,本文方法在充分利用无标签样本的情况下,有效地提高了带有少量标签样本的高光谱图像的分类精度。  相似文献   

12.
针对无标签高维图像分类问题,常用的深度网络在无标签的情况下难以产生好的分类结果。为此,提出一种面向特征生成的无监督域适应模型(Feature-GAN),它以一种无监督的方式在特征层面学习从一个域到另一个域转换,将源域图像特征映射为目标域图像特征并保持标签信息,生成的带标签特征可用于目标域特征的分类训练。该模型在复杂图像域适应上避免了图像本身的生成过程,而专注于特征生成,易训练且稳定性高。实验表明,该方法可以广泛应用于复杂图像分类的场景,相比于传统基于样本生成的无监督域适应算法,该算法在精确度、收敛速度以及稳定性上均有提高。  相似文献   

13.
为缓解基于半监督学习的水面目标检测对有限标注样本过拟合的问题,提高无标注样本中目标提取的有效性,提出了基于多视图交叉一致性学习的半监督水面目标检测算法。首先,该算法通过数据增强的方式为训练样本生成不同的视图以丰富数据集的多样性;然后,利用所提出的多视图目标判别器为无标注样本在线生成伪标签,有助于提取无标注样本的有效信息;最后,利用所提出的多视图交叉一致性学习使同一目标实例的不同视图的输出实现交叉一致性正则化,以促进检测模型学习判别性的特征从而降低过拟合的风险。在海上和内河数据集上的实验结果表明:文中所提算法能够提高特征提取的判别性,对多类别的水面目标检测精度达到91.0%,比全监督检测算法提高了18.7%,比其他半监督检测算法提高了3.8%以上;在检测速度上,该算法达到13.1帧/s,基本满足实时性要求。所提算法通过多视图交叉一致性学习提高特征的判别性和缓解检测模型的过拟合风险,有助于提高半监督水面目标检测的性能。  相似文献   

14.
针对多源聚合下同时对齐域不变特征较困难而造成分类精度不高的问题, 提出基于自监督任务的多源无监督域适应法. 该方法引入旋转、水平翻转和位置预测3个自监督辅助任务, 通过伪标签性、语义信息的一致性对无标签数据进行自适应的对齐优化. 构建新的优化损失函数, 减少多域公共类别的分类差异. 针对类别不均衡的问题, 基于少样本大权重的原则, 定义动态权重参数, 提高模型的分类性能. 在公开的Office-31、Office-Caltech10 2种基准数据集上, 与现有的主流方法进行实验对比. 实验结果表明, 在类别均衡、不均衡2种情况下, 分类精度最高可以提高6.8%.  相似文献   

15.
为了实现Scratch可视化编程领域的作品分类,提出了一种基于标签关联性的多标签分类算法(MLLR),构建了一个有效的多标签Scratch分类模型.首先提取作品的Block使用特征、计算思维技能特征和复杂度特征3类特征作为分类特征;然后针对RAKEL算法随机选择标签子集,忽略了标签间的关联性,提出了改进的MLLR算法,该方法根据多标签之间的关联性来划分标签子集,再训练相应的标签幂集子分类器.实验结果表明,MLLR算法在分类性能和时间性能上优于RAKEL等多标签分类算法,构建的分类模型对于Scratch作品具有较强的适用性,分类的准确率达到81.3%.  相似文献   

16.
针对因特网流量分类面临的流量类别标记瓶颈和类别样本数分布不平衡,提出基于Bootstrapping的流量分类方法,使用少量有标记样本训练初始分类器,迭代利用无标记样本扩展样本集并更新分类器. 在构建扩展样本集过程中,将无标记样本在某后验概率分布下的正确分类行为视为一个概率事件,建立新的置信度计算方法,以减少扩展样本集中的噪声样本;基于概率近似正确学习理论建立启发式规则,注重选择小类样本加入扩展样本集,缓解类别样本数分布的不平衡. 实验结果表明,与初始分类器相比,基于Bootstrapping的流量分类器总体分类准确率可提高9.46%;与现有半监督学习方法相比,小类分类准确率提高2.22%.  相似文献   

17.
传统支持向量机在处理包含大量未知类别样本的训练集时性能较差。针对这一不足,在少量已知类别样本和大量未知类别样本构成的训练集上,提出一种基于蚁群聚类算法的支持向量机半监督式学习方法。该方法应用蚁群聚类算法进行聚类分析,实现了同类样本的自组织聚类;通过一个递归的类别判定算法,回收样本类别;同时,提取各类簇之间靠得相对较近的边界样本组成精简训练集,以缩减训练集规模加快学习速度。实验表明,该算法能够自适应样本类别分布,有较高的分类精度和泛化能力。  相似文献   

18.
高光谱数据维数高,有标签的样本数量少,给高光谱图像分类带来困难。本文针对传统三重训练(tri-training)算法在初始有标签样本数量较少的情况下分类器间差异性不足的问题提出了一种基于改进三重训练算法的半监督分类框架。该方法首先通过边缘采样策略(margin Sampling,MS)选取最富含信息量的无标签样本,然后在训练每个分类器之前通过差分进化算法(differential evolution,DE)利用所选取的无标签样本产生新的样本。这些新产生的样本将被标记并且加入训练样本集来帮助初始化分类器。实验结果表明,该方法不仅能够有效地利用无标签样本,而且在有标签数据很少的情况下能够有效地提高分类精度。  相似文献   

19.
自动分类是数据挖掘和机器学习中非常重要的研究领域.针对难以获得大量有类标签的训练集问题,提出了基于小规模训练集的增量式贝叶斯分类,给出增量式贝叶斯分类机理参数计算及其算法.对算法分两种情况处理:第一种情况是新增样本有类别标签,则利用现有分类器检验其类标签,如果匹配则保留当前分类器,否则利用新样本修正分类器;第二种情况是新增样本无类别标签,则利用现有分类器为其训练类标签,然后利用新样本来修正分类器.实验结果表明,该算法是可行有效的,比简单贝叶斯分类算法有更高的精度.增量式贝叶斯分类算法的提出为分类器的更新提供了一条新途径.  相似文献   

20.
针对文本分类中传统的TFIDF特征提取算法的缺陷,引入信息熵与词长信息改进TFIDF算法。传统的TFIDF算法中忽略了词长信息,词长不同能够表达的信息也不同,同时还忽略了文本中特征词的分布特征。改进的TFIDF算法中加入了表达词长信息的因子并且引入词条信息熵来反映特征词在文本中的分布特征,实验比较了其与TFIDF、TFIDFL等算法在相同数据集上使用逻辑回归分类器的分类准确率。改进的算法平均准确率比TFIDF算法高了7.34%,比TFIDFL算法高了5.99%,结果表明引入信息熵与词长信息改进TFIDF算法能够有效提升分类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号