期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《哈尔滨工程大学学报》2016,(6)

高光谱数据维数高,有标签的样本数量少,给高光谱图像分类带来困难。本文针对传统三重训练(tri-training)算法在初始有标签样本数量较少的情况下分类器间差异性不足的问题提出了一种基于改进三重训练算法的半监督分类框架。该方法首先通过边缘采样策略(margin Sampling,MS)选取最富含信息量的无标签样本,然后在训练每个分类器之前通过差分进化算法(differential evolution,DE)利用所选取的无标签样本产生新的样本。这些新产生的样本将被标记并且加入训练样本集来帮助初始化分类器。实验结果表明,该方法不仅能够有效地利用无标签样本,而且在有标签数据很少的情况下能够有效地提高分类精度。相似文献

2.

融合主动学习的高光谱图像半监督分类

《哈尔滨工程大学学报》2017,(8)

针对高光谱数据维数高、有标签样本少等特点,采用半监督分类利用未标记样本信息提高高光谱图像分类精度。主动学习研究训练样本的选择方法,以少量的标记样本得到尽可能好的泛化能力。本文提出了一种结合主动学习算法的半监督分类算法。该方法使用支持向量机作为基本的学习模型,通过主动学习方法选取训练样本,以伪标记的形式加入到分类器的训练中,结合验证分类器迭代选出置信度较高的伪标记样本,通过差分进化算法交叉变异伪标记样本扩充标记样本群。在两个数据集上进行仿真实验,与传统分类算法相比,所提算法的总体分类精度分别提高了1.97%、0.49%,表明该算法能够有效地提升主动学习样本选择的效率,在有限带标记样本情况下提高了分类器精度。相似文献

3.

改进的LLGC高光谱图像半监督分类

《哈尔滨工程大学学报》2017,(7)

针对高光谱数据波段多,地物标签获取代价高,带标记的样本数量少,分类过程中容易引起Hudges现象。本文提出一种基于改进的局部全局一致性(learning with local and global consistency,LLGC)算法的半监督分类方法。通过边缘采样法(margin sampling,MS)选取最富含信息量的无标签样本,加入到训练集来扩充训练样本;用KNN算法计算相似度进一步优选无标签样本,去除噪声点和存在的野值点;使用改进的局部全局一致性算法对无标签样本集进行分类标记,得到各类别的分类结果。实验结果表明,本文方法在充分利用无标签样本的情况下,有效地提高了带有少量标签样本的高光谱图像的分类精度。相似文献

4.

增量式贝叶斯分类的原理和算法

李晓毅徐兆棣《沈阳工业大学学报》2006,28(4):422-425

自动分类是数据挖掘和机器学习中非常重要的研究领域.针对难以获得大量有类标签的训练集问题，提出了基于小规模训练集的增量式贝叶斯分类，给出增量式贝叶斯分类机理参数计算及其算法.对算法分两种情况处理:第一种情况是新增样本有类别标签，则利用现有分类器检验其类标签，如果匹配则保留当前分类器，否则利用新样本修正分类器；第二种情况是新增样本无类别标签，则利用现有分类器为其训练类标签，然后利用新样本来修正分类器.实验结果表明，该算法是可行有效的，比简单贝叶斯分类算法有更高的精度.增量式贝叶斯分类算法的提出为分类器的更新提供了一条新途径. 相似文献

5.

基于标签相关性的多标签分类AdaBoost算法

王莉莉付忠良《四川大学学报(工程科学版)》2016,48(5):91-97

在多标签分类问题中,标签之间往往是相关的,为了提高分类性能,利用标签之间的相关性,提出AdaBoost.MLR算法和标签相关性分析方法。AdaBoost.MLR算法采用余弦相似度来计算标签相关性矩阵,利用标签相关性矩阵对原始标签矩阵进行补全转换为模糊标签矩阵,将标签空间划分为标签集、标签相关集和标签无关集,结合标签之间的相关性和弱分类器的分类情况,对样本权重进行调整。AdaBoost.MLR算法也能解决多类别分类问题,在其标签相关性的计算中,根据已经训练的弱分类器得到的临时强分类器的分类结果,构造标签相似性矩阵。实验结果表明,文中提出的算法在实验数据集上优于现有的算法,尤其在标签相关性复杂的数据集上分类性能有显著提升。相似文献

6.

一种增量式Bayes文本分类算法

高洁吉根林《南京师范大学学报》2004,4(3):49-52

文本自动分类是数据挖掘和机器学习中非常重要的研究领域 .针对难以获得大量有类标签的训练集问题 ,提出了基于小规模标注语料的增量式Bayes文本分类算法 .该算法分两种情况处理 :第一种情况是新增样本有类标签 ,可直接重新计算样本属于某类别的条件概率 .第二种情况是新增样本无类标签 ,则利用现有分类器为其训练类标签 ,然后利用新样本来修正分类器 .实验结果表明 ,该算法是可行有效的 ,比Na veBayes文本分类算法有更高的精度 .增量式Bayes分类算法的提出为分类器的更新提供了一条新途径相似文献

7.

基于半监督学习的朴素贝叶斯分类新算法

《吉林大学学报(工学版)》2016,(3)

为了在有标签的训练集中保留高质量的样本,首先利用无标签训练集得出置信度高的k个样本,再结合有标签训练样本,不断迭代直至训练完成。实验结果表明:随着无标记样本比例的不断增加,本文算法预测准确性明显高于朴素贝叶斯分类算法,而且其性能比传统半监督学习方法有所改善。相似文献

8.

基于深度双向分类器链的多标签新闻分类算法

胡天磊王皓波尹文栋《浙江大学学报(工学版)》2019,53(11):2110-2117

在多标签新闻分类问题中,针对传统分类器链算法难以确定标签依赖顺序、集成模型运行效率低和无法应用复杂模型作为基分类器的问题,提出基于深度神经网络的双向分类器链算法. 该方法利用正向分类器链获取每个标签和前面所有标签的依赖关系,引入逆向分类器链,从正向链最后一个基分类器的输出开始反向学习每个标签和所有其他标签的相关性. 为了提取非线性标签相关性和提高预测性能,使用深度神经网络作为基分类器. 结合2条分类器链的均方误差,使用随机梯度下降算法对目标函数进行有效优化. 在多标签新闻分类数据集RCV1-v2上,将所提算法与当前主流的分类器链算法和其他多标签分类算法进行对比和分析. 实验结果表明,利用深度双向分类器链算法能够有效提升预测性能. 相似文献

9.

基于LS-SVM的多标签分类算法 总被引：2，自引：0，他引：2

殷会许建华许花《南京师范大学学报》2010,10(2):68-73

多标签分类是指部分样本同时归属多个类别.基于数据分解的算法因训练速度快、性能良好而得到广泛的应用.本文采用一对一分解策略,将k标签数据集分解为k(k-1)/2个两类单标签和两类双标签的数据子集.对每一训练子集统一用LS-SVM模型建立子分类器,当出现双标签样本时将其函数值设为0,并确定适当的分类阈值.对情感、景象和酵母数据集的实验结果表明,本文算法的某些性能指标优于现有一些常用的多标签分类方法. 相似文献

10.

基于模糊多标签AdaBoost算法的心脏瓣膜疾病分类

下载免费PDF全文

王莉莉付忠良《四川大学学报(工程科学版)》2017,49(Z1):146-152

针对心脏瓣膜疾病模糊分类问题,提出了基于多标签AdaBoost的模糊分类改进算法。结合模糊集理论,采用隶属函数将疾病的严重程度映射到区间[0,1]内的实数值,将超声诊断结果用模糊标签向量表示。利用余弦相似性分析疾病之间的复杂关系,计算标签相关性矩阵并对模糊标签向量进行补充。结合实际问题选取合适的阈值,将标签空间划分为标签集、标签相关集和标签无关集。本文算法以最小化排序损失为目标,针对不同的标签给予不同的权值调整因子,调整样本权重更新速度,强迫弱分类器“关注”与样本标签相关性较高的标签。在临床超声心动图TEE监测数据集上的实验结果表明：在对超声诊断结果模糊化时,通过隶属函数将疾病的严重程度中的“无病”映射为0,“轻度”映射到区间[0.8,0.85],“中度”映射到区间[0.85,0.9],“重度”映射到区间[0.9,1],构造模糊标签矩阵,并通过标签相关性矩阵对其进行补充,此时所构造的分类器性能达到最优。将本文算法与AdaBoost.MLR算法、AdaBoost.MR算法、BPMLL算法、RankSVM算法和MLkNN算法进行对比分析,在多标签分类的5种评价指标上,本文算法的分类性能均优于其他对比算法,分类结果更接近超声诊断结果。相较于AdaBoost.MLR算法,本文算法的Ranking Loss 下降了15.8%左右, One error下降了23.8%左右;相较于AdaBoost.MR算法,本文算法的Ranking Loss和One error降低30%左右,Coverage下降了15.6%左右。相似文献

11.

改进的球结构SVM多分类增量学习算法 总被引：1，自引：0，他引：1

谢志强高丽杨静《哈尔滨工程大学学报》2009,30(9)

针对球结构支持向量机(support vector machine,SVM)增量学习算法在训练时间和分类精度上的不足,提出了一种改进的球结构SVM多分类增量学习算法.该算法首先构造一个完全二叉树用于多类分类;分析新增样本的加入对原支持向量集的影响,将新增样本集中部分样本和原始训练集中的支持向量以及分布在球体一定范围内的样本合并做为新的训练集,完成分类器的重构.实现通过减少训练样本缩短训练时间和完善分类器提高分类精度的目的.通过UCI标准数据集实验,结果表明,该算法在所需训练的样本数、训练时间以及准确率3方面都优于球结构SVM增量学习算法,尤其当样本分布不平衡时,该算法有更高的分类准确率. 相似文献

12.

基于改进Tri-training算法的中文问句分类

《安徽工业大学学报》2016,(2)

原始Tri-training算法对有标记的数据集通过随机采样方法,形成3个训练集去训练3个分类器。但是由这种随机采样形成的训练集中,可能出现有标记数据集中的不同类别数据数量相差较大,从而导致训练集中样本类别不平衡问题,影响分类器的分类正确率。本文通过分类采样对Tri-training算法的随机采样方法进行改进,根据该改进的Tri-training算法,建立分类模型,并利用其对哈工大中文问句集和本文扩展问句集进行分类实验。结果表明,本文算法有良好的适应性,且分类正确率明显提高;适当增大训练集和未标记样本数据可以增强分类器的泛化能力,从而使分类正确率提高。相似文献

13.

基于Bootstrapping的因特网流量分类方法

刘珍王若愚刘琼《北京邮电大学学报》2014,37(5):66

针对因特网流量分类面临的流量类别标记瓶颈和类别样本数分布不平衡,提出基于Bootstrapping的流量分类方法,使用少量有标记样本训练初始分类器,迭代利用无标记样本扩展样本集并更新分类器. 在构建扩展样本集过程中,将无标记样本在某后验概率分布下的正确分类行为视为一个概率事件,建立新的置信度计算方法,以减少扩展样本集中的噪声样本;基于概率近似正确学习理论建立启发式规则,注重选择小类样本加入扩展样本集,缓解类别样本数分布的不平衡. 实验结果表明,与初始分类器相比,基于Bootstrapping的流量分类器总体分类准确率可提高9.46%;与现有半监督学习方法相比,小类分类准确率提高2.22%. 相似文献

14.

基于合群度-隶属度噪声检测及动态特征选择的改进AdaBoost算法

王友卫凤丽洲《浙江大学学报(工学版)》2021,55(2):367-376

为了提高AdaBoost集成学习算法的数据分类性能,提出基于合群度-隶属度噪声检测及动态特征选择的改进AdaBoost算法. 综合考虑待检测样本与邻居样本的相似度及与不同类别样本集的隶属关系,引入合群度和隶属度的概念,提出新的噪声检测方法. 在此基础上,为了更好地选择那些能够有效区分错分样本的特征,在传统过滤器特征选择方法的基础上提出通用的结合样本权重的动态特征选择方法,以提高AdaBoost算法针对错分样本的分类能力. 以支持向量机作为弱分类器,在8个典型数据集上分别从噪声检测、特征选择及现有方法比较3个方面进行实验. 结果表明,所提算法充分考虑了噪声样本和样本权重对AdaBoost分类结果的影响,相对于传统算法在分类性能上获得显著提升. 相似文献

15.

基于改进三体训练法的半监督专利文本分类方法

胡云青邱清盈余秀武建伟《浙江大学学报(工学版)》2020,54(2):331-339

针对信息增益算法只能考察特征对整个系统的贡献、忽略特征对单个类别的信息贡献的问题,提出改进信息增益算法,通过引入权重系数调整对分类有重要价值的特征的信息增益值,以更好地考虑一个词在类别间的分布不均匀性. 针对传统专利自动分类中训练集标注瓶颈问题,提出基于改进三体训练算法的半监督分类方法,通过追踪每次更新后的训练集样本类别分布来动态改变3个分类器对同一未标记样本类别的预测概率阈值,从而在降低噪音数据影响的同时实现对未标记训练样本的充分利用. 实验结果表明,本研究所提出的分类方法在有标记训练样本较少的情况下,可以取得较好的自动分类效果,并且适当增大未标记样本数据可以增强分类器的泛化能力. 相似文献

16.

基于多支持向量机分类器的增量学习算法研究 总被引：1，自引：0，他引：1

杨静张健沛刘大昕《哈尔滨工程大学学报》2006,27(1):103-106

为了将一般增量学习算法扩展到并行计算环境中,提出一种基于多支持向量机分类器的增量学习算法.该算法根据多分类器对新增样本集的分类结果,以样本到分类超平面的平均距离为条件重新构造支持向量集更新分类器,直到所有分类器的分类精度满足指定阈值.实验结果表明了该算法的可行性和正确性. 相似文献

17.

面向目标的带先验概率的AdaBoost算法 总被引：2，自引：1，他引：1

赵向辉姚宇付忠良苗青谢会云《四川大学学报(工程科学版)》2010,42(2):139-144

针对集成学习算法研究中多个分类器的最佳组合问题,改进了传统的AdaBoost集成学习算法.用于组合的各个分类器通常是基于样本集通过一定的训练得到,样本集中不同类目标的比率可以反映分类目标的先验概率.使用该参数给出了新的组合参数和投票表决阈值计算公式,巧妙的利用样本权值并将其加入到样本属性上进行训练学习,采用新的策略来选择基分类器,给出了面向目标的带先验概率的AdaBoost算法(GWPP AdaBoost算法)和分类器的最佳组合.依据UCI实验数据对传统的AdaBoost算法、Bagging算法、GWPP AdaBoost算法的错误率和性能进行了比较分析,验证了GWPP AdaBoost的有效性. 相似文献

18.

一种基于相关信息熵的多标签分类算法

张振海李士宁李志刚《西北工业大学学报》2012,30(6):968-973

在多标签分类中,标签之间的相关关系是一个重要的因素。为了利用标签之间的相关关系,文章提出了一种基于相关信息熵的多标签分类算法,使用相关信息熵来衡量标签之间相关关系的强弱程度。首先找出相关信息熵值最大的k标签组合的集合,然后使用LP(Label Powerset)分类器对每一个标签组合进行训练。在7个不同实验数据集上的实验结果表明:文中提出的算法的分类性能在其中的大部分数据集上优于其它对比的分类算法,而其它对比的分类算法仅在某一个数据集上优于文中提出的算法。相似文献

19.

一种安全的基于分歧的半监督分类算法

赵建华《西华大学学报(自然科学版)》2014,33(5):1-6

为提高半监督分类的性能,提出一种安全的基于分歧的半监督分类算法Safe Co-SSC。通过有标记样本训练3个有监督分类器,利用无标记样本的信息增加分类器的差异性,采取3个分类器加权投票的策略实现对无标记样本的伪标记;对伪标记样本进行二次验证,选用能使分类器误差减小的新增标记样本扩充标记样本集。保证新样本的添加既减小了分类器的分类误差,又提高了分类器的分歧性。对UCI数据集进行分类实验的结果表明,该算法具有较高的分类率和样本标记率。相似文献

20.

基于Adaboost.MK和SM-SVDD的变压器故障诊断方法

《电力科学与技术学报》2017,(3)

为了解决变压器故障诊断过程中单分类器诊断精确度不足的问题,引入一种基于改进AdaBoost算法和二次映射支持向量描述的变压器故障诊断方法。该方法训练若干个多分类二次映射支持向量描述分类器,得到弱分类器,采用改进AdaBoost算法将这些弱分类器进行集成构成一个强分类器,并在迭代训练过程中通过改变训练样本的权重,使集成多分类模型聚焦于一些难以分类的样本,从而提高分类精度。实际案例分析表明所提方法能够提高变压器故障诊断精度相似文献