首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
情感分类是目前自然语言处理领域的一个热点研究问题。该文关注情感分类中的半监督学习方法(即基于少量标注样本和大量未标注样本进行学习的方式),提出了一种新的基于动态随机特征子空间的半监督学习方法。首先,动态生成多个随机特征子空间;然后,基于协同训练(Co-training)在每个特征子空间中挑选置信度高的未标注样本;最后使用这些挑选出的样本更新训练模型。实验结果表明我们的方法明显优于传统的静态产生方式及其他现有的半监督方法。此外该文还探索了特征子空间的划分数目问题。  相似文献   

2.
基于Hessian半监督特征选择的网络图像标注   总被引:1,自引:0,他引:1  
针对半监督特征选择算法进行了研究,采用有标签图像和无标签图像的半监督特征选择方法来提升网络图像标注的性能。基于二阶Hessian能提出一个新的半监督特征选择方法,该方法具有更好的局部拓扑结构保持特性和推断能力,从而能够克服基于图拉普拉斯半监督学习方法的缺点。将所提出的半监督特征选择算法应用到网络图像标注任务中,在两个大规模网络图像数据库上进行了实验,结果表明Hessian半监督特征选择方法优于拉普拉斯半监督特征选择方法,适合大规模网络图像标注。  相似文献   

3.
特征选择是模式识别、机器学习、数据挖掘等领域的重要问题之一,近年来已成为研究热点,并涌现出大量的用于选择特征的算法.现有的特征选择算法大多仅面向某一特定领域,其适用范围有限.采用基于Hilbert-Schmidt相关性标准的核方法衡量特征子集与目标对象间的相关程度,提出了一个适用性更广的特征选择方法FSM_HSIC,能较好地统一有监督、半监督和无监督3种模型下的特征选择过程,而且可从核方法的角度对整个过程进行抽象地描述,并深入理解现有的一些算法.同时以该方法为基础针对交互特征选择问题设计了新颖的FSI算法.理论分析和大量真实与仿真实验结果表明,与若干特征选择算法相比较,提出的算法具有良好的效率和稳定性,FSM_HSIC方法对新算法的产生具有重要的指导意义.  相似文献   

4.
特征选择旨在降低高维度特征空间,进而简化问题和优化学习方法。已有的研究显示特征提取方法能够有效降低监督学习的情感分类中的特征维度空间。同以往研究不一样的是,该文首次探讨半监督情感分类中的特征提取方法,提出一种基于二部图的特征选择方法。该方法首先借助二部图模型来表述文档与单词间的关系;然后,结合小规模标注样本的标签信息和二部图模型,利用标签传播(LP)算法计算每个特征的情感概率;最后,按照特征的情感概率进行排序进而实现特征选择。多个领域的实验结果表明,在半监督情感分类任务中,基于二部图的特征选择方法明显优于随机特征选择,在保证分类效果不下降(甚至提高)的前提下有效降低了特征空间维度。  相似文献   

5.
半监督聚类的若干新进展   总被引:6,自引:0,他引:6  
半监督聚类方法利用少量标记数据提高聚类算法的性能,已逐渐发展成为模式识别及相关领域的研究热点.文中首先综述了半监督聚类算法的一些新进展,包括基于约束的方法、基于距离的方法和基于距离与约束的融合方法.然后提出一种基于约束的半监督模糊C-means聚类算法.实验表明,该算法与传统的模糊C-means及半监督K-means方法相比,具有更好的聚类精度.  相似文献   

6.
半监督学习是人工智能领域一个重要的研究内容;在半监督学习中,如何有效利用未标记样本来提高分类器的泛化性能,是机器学习研究的热点和难点;主动学习可解决未标记样本有效利用的问题,将主动学习引入到半监督分类中,并改进贝叶斯算法,提出了一种基于改进贝叶斯算法的主动学习与半监督学习结合算法;实验结果表明,该方法取得了较好的分类效果。  相似文献   

7.
半监督集成学习综述   总被引:3,自引:0,他引:3  
半监督学习和集成学习是目前机器学习领域中两个非常重要的研究方向,半监督学习注重利用有标记样本与无标记样本来获得高性能分类器,而集成学习旨在利用多个学习器进行集成以提升弱学习器的精度。半监督集成学习是将半监督学习和集成学习进行组合来提升分类器泛化性能的机器学习新方法。首先,在分析半监督集成学习发展过程的基础上,发现半监督集成学习起源于基于分歧的半监督学习方法;然后,综合分析现有半监督集成学习方法,将其分为基于半监督的集成学习与基于集成的半监督学习两大类,并对主要的半监督集成方法进行了介绍;最后,对现有研究进了总结,并讨论了未来值得研究的问题。  相似文献   

8.
特征选择旨在降低待处理数据的维度,剔除冗余特征,是机器学习领域的关键问题之一。现有的半监督特征选择方法一般借助图模型提取数据集的聚类结构,但其所提取的聚类结构缺乏清晰的边界,影响了特征选择的效果。为此,提出一种基于稀疏图表示的半监督特征选择方法,构建了聚类结构和特征选择的联合学习模型,采用l__1范数约束图模型以得到清晰的聚类结构,并引入l_2,1范数以避免噪声的干扰并提高特征选择的准确度。为了验证本方法的有效性,选择了目前流行的几种特征方法进行对比分析,实验结果表明了本方法的有效性。  相似文献   

9.
基于类标号扩展的半监督特征选择算法   总被引:1,自引:0,他引:1  
王博  贾焰  田李 《计算机科学》2009,36(10):189-191
特征选择是数据挖掘、机器学习等领域的重要内容,在缺乏已标记样本的情况下,如何有效选择特征是一个非常值得研究的问题。基于集合间相关度与自相关度的定义,提出了一种新颖的半监督特征选择方法,从原始、少量、且已标记的训练样本出发,通过扩展类标号得到最终的聚类效果,采用复合的评价方法作为衡量特征子集的标准。大量实验结果表明,该算法是有效的。  相似文献   

10.
陆宇  赵凌云  白斌雯  姜震 《计算机应用》2022,42(12):3750-3755
不平衡分类的相关算法是机器学习领域的研究热点之一,其中的过采样通过重复抽取或者人工合成来增加少数类样本,以实现数据集的再平衡。然而当前的过采样方法大部分是基于原有的样本分布进行的,难以揭示更多的数据集分布特征。为了解决以上问题,首先,提出一种改进的半监督聚类算法来挖掘数据的分布特征;其次,基于半监督聚类的结果,在属于少数类的簇中选择置信度高的无标签数据(伪标签样本)加入原始训练集,这样做除了实现数据集的再平衡外,还可以利用半监督聚类获得的分布特征来辅助不平衡分类;最后,融合半监督聚类和分类的结果来预测最终的类别标签,从而进一步提高算法的不平衡分类性能。选择G-mean和曲线下面积(AUC)作为评价指标,将所提算法与TU、CDSMOTE等7个基于过采样或欠采样的不平衡分类算法在10个公开数据集上进行了对比分析。实验结果表明,与TU、CDSMOTE相比,所提算法在AUC指标上分别平均提高了6.7%和3.9%,在G-mean指标上分别平均提高了7.6%和2.1%,且在两个评价指标上相较于所有对比算法都取得了最高的平均结果。可见所提算法能够有效地提高不平衡分类性能。  相似文献   

11.
情感分类是目前自然语言处理领域的一个具有挑战性的研究热点,该文主要研究基于半监督的文本情感分类问题。传统基于Co-training的半监督情感分类方法要求文本具备大量有用的属性集,其训练过程是线性时间的计算复杂度并且不适用于非平衡语料。该文提出了一种基于多分类器投票集成的半监督情感分类方法,通过选取不同的训练集、特征参数和分类方法构建了一组有差异的子分类器,每轮通过简单投票挑选出置信度最高的样本使训练集扩大一倍并更新训练模型。该方法使得子分类器可共享有用的属性集,具有对数时间复杂度并且可用于非平衡语料。实验结果表明我们的方法在不同语种、不同领域、不同规模大小,平衡和非平衡语料的情感分类中均具有良好效果。  相似文献   

12.
基于增强稀疏性特征选择的网络图像标注   总被引:1,自引:0,他引:1  
史彩娟  阮秋琦 《软件学报》2015,26(7):1800-1811
面对网络图像的爆炸性增长,网络图像标注成为近年来一个热点研究内容,稀疏特征选择在提升网络图像标注效率和性能方面发挥着重要的作用.提出了一种增强稀疏性特征选择算法,即,基于l2,1/2矩阵范数和共享子空间的半监督稀疏特征选择算法(semi-supervised sparse feature selection based on l2,1/2-matix norm with shared subspace learning,简称SFSLS)进行网络图像标注.在SFSLS算法中,应用l2,1/2矩阵范数来选取最稀疏和最具判别性的特征,通过共享子空间学习,考虑不同特征之间的关联信息.另外,基于图拉普拉斯的半监督学习,使SFSLS算法同时利用了有标签数据和无标签数据.设计了一种有效的迭代算法来最优化目标函数.SFSLS算法与其他稀疏特征选择算法在两个大规模网络图像数据库上进行了比较,结果表明,SFSLS算法更适合于大规模网络图像的标注.  相似文献   

13.
将迁移学习和数据分组处理算法集成起来,提出了一种基于数据分组处理算法的迁移特征选择(GM-DH-TFS)模型。在UCI的四个数据集上,将GMDH-TFS模型与以全部特征作分类(FULL)的结果以及常用的特征选择模型(前向监督特征选择模型(SFFS)、前向半监督特征选择模型(FW-SemiFS)和迁移特征选择模型(TFS))作比较实验,结果表明,GMDH-TFS在特征选择方面比其他四种方法有更好的效果,在小样本情况下也得到了同样的结果。GMDH-TFS模型可以在数据分布不一致的情况下进行特征选择,同时面对数据匮乏也能取得理想的效果。  相似文献   

14.
波段选择是数据降维的有效手段,但有限的标记样本影响了监督波段选择的性能。提出一种利用图Laplacian和自训练策略实现半监督波段选择的方法。该方法首先定义基于图的半监督特征评分准则以产生初始波段子集,接着在该子集基础上进行分类,采用自训练策略将部分可信度较高的非标记样本扩展至标记样本集合,再用特征评分准则对波段子集进行更新。重复该过程,获得最终波段子集。高光谱波段选择与分类实验比较了多种非监督、监督和半监督方法,实验结果表明所提算法能选择出更好的波段子集。  相似文献   

15.
多源适应学习是一种旨在提升目标学习性能的有效机器学习方法。针对多标签视觉分类问题,基于现有的研究进展,研究提出一种新颖的联合特征选择和共享特征子空间学习的多源适应多标签分类框架,在现有的图Laplacian正则化半监督学习范式中充分考虑目标视觉特征的优化处理,多标签相关信息在共享特征子空间的嵌入,以及多个相关领域的判别信息桥接利用等多个方面,并将其融为一个统一的学习模型,理论证明了其局部最优解只需通过求解一个广义特征分解问题便可分别获得,并给出了算法实现及其收敛性定理。在两个实际的多标签视觉数据分类上分别进行深入实验分析,证实了所提框架的鲁棒有效性和优于现有相关方法的分类性能。  相似文献   

16.
监督学习需要利用大量的标记样本训练模型,但实际应用中,标记样本的采集费时费力。无监督学习不使用先验信息,但模型准确性难以保证。半监督学习突破了传统方法只考虑一种样本类型的局限,能够挖掘大量无标签数据隐藏的信息,辅助少量的标记样本进行训练,成为机器学习的研究热点。通过对半监督学习研究的总趋势以及具体研究内容进行详细的梳理与总结,分别从半监督聚类、分类、回归与降维以及非平衡数据分类和减少噪声数据共六个方面进行综述,发现半监督方法众多,但存在以下不足:(1)部分新提出的方法虽然有效,但仅通过特定数据集进行了实证,缺少一定的理论证明;(2)复杂数据下构建的半监督模型参数较多,结果不稳定且缺乏参数选取的指导经验;(3)监督信息多采用样本标签或成对约束形式,对混合约束的半监督学习需要进一步研究;(4)对半监督回归的研究匮乏,对如何利用连续变量的监督信息研究甚少。  相似文献   

17.
半监督学习过程中,由于无标记样本的随机选择造成分类器性能降低及不稳定性的情况经常发生;同时,面对仅包含少量有标记样本的高维数据的分类问题,传统的半监督学习算法效果不是很理想.为了解决这些问题,本文从探索数据样本空间和特征空间两个角度出发,提出一种结合随机子空间技术和集成技术的安全半监督学习算法(A safe semi-supervised learning algorithm combining stochastic subspace technology and ensemble technology,S3LSE),处理仅包含极少量有标记样本的高维数据分类问题.首先,S3LSE采用随机子空间技术将高维数据集分解为B个特征子集,并根据样本间的隐含信息对每个特征子集优化,形成B个最优特征子集;接着,将每个最优特征子集抽样形成G个样本子集,在每个样本子集中使用安全的样本标记方法扩充有标记样本,生成G个分类器,并对G个分类器进行集成;然后,对B个最优特征子集生成的B个集成分类器再次进行集成,实现高维数据的分类.最后,使用高维数据集模拟半监督学习过程进行实验,实验结果表明S3LSE具有较好的性能.  相似文献   

18.
卷积神经网络(CNN)在半监督学习中取得了良好的成绩,其在训练阶段既利用有标记样本,也利用无标记样本帮助规范化学习模型。为进一步加强半监督模型的特征学习能力,提高其在图像分类时的性能表现,本文提出一种联合深度半监督卷积神经网络和字典学习的端到端半监督学习方法,称为Semi-supervised Learning based on Sparse Coding and Convolution(SSSConv);该算法框架旨在学习到鉴别性更强的图像特征表示。SSSConv首先利用CNN提取特征,并对所提取特征进行正交投影变换,下一步通过学习其稀疏编码的低维嵌入以得到图像的特征表示,最后据此进行分类。整个模型框架可进行端到端的半监督学习训练,CNN提取特征部分和稀疏编码字典学习部分具有统一的损失函数,目标一致。本文利用共轭梯度下降算法、链式法则和反向传播等算法对目标函数的参数进行优化,将稀疏编码的相关参数约束于流形上,CNN参数既可定义在欧氏空间,也可以进一步定义在正交空间中。基于半监督分类任务的实验结果验证了所提出SSSConv框架的有效性,与现有方法相比具有较强的竞争力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号