首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
针对标签特有特征和标签相关性的有效利用,提出了一种新的多标签算法LSFLC,它可以有效地集成标签特有特征和标签相关性。首先,对于每个标签,通过重采样技术生成新的正类实例以扩充其正类实例的数目;其次,通过特征映射函数将原始特征空间转换为特定的特征空间,得到每个标签的标签特征集;然后,对于每个标签,找到与其最相关标签,通过复制该标签的正类实例来扩大标签特征集,这不仅丰富了标签的信息,而且在一定程度上改善了类不平衡的问题;最后,对于不同的数据集进行实验分析,实验结果表明该算法的分类效果更好。  相似文献   

2.
层次标签文本分类是自然语言处理领域中一项具有挑战性的任务,每个文档需要被正确分类到对应具有层次结构的多个标签中。然而在标签集中,由于标签包含的语义信息不充分,同时被归类到深层次标签的文档数量过少,深层次标签训练不充分,导致显著的标签训练不平衡问题。基于此,提出了深层次标签辅助分类任务的层次标签文本分类方法(DLAC)。该方法提出了一种深层次标签辅助分类器,在标签语义增强的基础上有效利用文本特征与深层次标签对应的父标签结点(即浅层次标签的丰富特征)来提升深层次标签的分类性能。与11种算法在三个数据集上的对比实验结果表明,模型能够有效提升深层次标签的分类性能,并取得良好效果。  相似文献   

3.
学习类属特征方法为每个标签选择特有特征并考虑成对标签的相关性以降低维度,可有效解决多标签分类遇到的维度过大问题,但缺乏对实例相关性的考虑.针对此问题,文中提出基于类属特征和实例相关性的多标签分类算法,不仅考虑标签相关性还考虑实例特征的相关性.通过构建相似性图,学习实例特征空间的相似性.在8个数据集上的实验表明,文中算法可有效提取类属特征,具有较好的分类性能.  相似文献   

4.
多标签分类的实质就是为给定实例预测一个与其关联的标签集合。典型方法可以分为两类:问题转换型和算法适应型。本文主要研究基于标签幂集的问题转换型算法。由于已有的标签幂集算法很难发现甚至可能忽略隐藏在训练集中的重要标签集合,因此,本文提出了一种基于标签聚类的标签幂集方法,通过改进平衡k-means聚类来发现训练集中潜在的重要标签集合,并用于形成新的训练集进行多标签分类。经实验验证,该算法在多个评价指标上较原有的标签幂集方法具有更好的分类性能。  相似文献   

5.
提出一种基于标签正负相关性的多标签类属特征学习方法(multi-label learning with label-specific features based on positive and negative label correlation,LIFTPNL).基于k近邻的思想构建全局和局部的标签信息矩阵,根据此矩阵计算成对标签的正负相关性;对每个类别标签,基于属于相同和不同类簇的样本构建连接矩阵,联合该标签正负相关性计算样本相似度;采用谱聚类方法获得聚类中心,将原有特征转换成类属特征;通过二分类器得到分类结果.实验结果表明,所提算法优于多种多标签分类方法.  相似文献   

6.
多标签文本分类是一项基础而实用的任务,其目的是为文本分配多个可能的标签。近年来,人们提出了许多基于深度学习的标签关联模型,以结合标签的信息来学习文本的语义表示,取得了良好的分类性能。通过改进标签关联的建模和文本语义表示来推进这一研究方向。一方面,构建的层级图标签表示,除了学习每个标签的局部语义外,还进一步研究多个标签共享的全局语义。另一方面,为了捕捉标签和文本内容间的联系并加以利用,使用标签文本注意机制来引导文本特征的学习过程。在三个多标签基准数据集上的实验表明,该模型与其他方法相比具有更好的分类性能。  相似文献   

7.
蔡剑  牟甲鹏  余孟池  徐建 《计算机与数字工程》2021,49(10):1967-1972,1997
多标签分类在现实世界中有着广泛的应用,是当今机器学习领域的热点问题之一.多标签分类的代表性算法BR(Binary Relevance)虽有较多的改进工作,但大都仅针对标签相关性或特征选择中某一个方面进行改进,因此现有改进算法的性能仍存在提升空间.针对上述现状,论文提出一种基于特征选择和标签相关性的多标签分类算法,该算法先使用信息增益为每个标签选择与其相关的特征属性,而后采用新的控制结构的方式考虑标签相关性,最后使用新的特征集合为每个标签训练二分类器.在6个基准数据集上的实验结果表明,该算法在5种不同评价指标下的表现优于其它典型的BR改进算法.  相似文献   

8.
针对多标签学习中实例标签的缺失补全和预测问题,本文提出一种基于正则化的半监督弱标签分类方法(简称SWCMR),方法同时兼顾实例相似性和标签相关性.SWCMR首先根据标签相关性对弱标签实例的缺失标签进行初步预估,然后利用弱标签实例和无标签实例构造邻域图,从实例相似性和标签相关性角度构建基于平滑性假设的正则化项,接下来利用预估后的弱标签实例结合无标签实例训练半监督弱标签分类模型.在多种公共多标签数据集上的实验结果表明,SWCMR提高了分类性能,尤其是标签信息较少时,分类效果提升更显著.  相似文献   

9.
肖琳  陈博理  黄鑫  刘华锋  景丽萍  于剑 《软件学报》2020,31(4):1079-1089
自大数据蓬勃发展以来,多标签分类一直是令人关注的重要问题,在现实生活中有许多实际应用,如文本分类、图像识别、视频注释、多媒体信息检索等.传统的多标签文本分类算法将标签视为没有语义信息的符号,然而,在许多情况下,文本的标签是具有特定语义的,标签的语义信息和文档的内容信息是有对应关系的,为了建立两者之间的联系并加以利用,提出了一种基于标签语义注意力的多标签文本分类(LAbel Semantic Attention Multi-label Classification,简称LASA)方法,依赖于文档的文本和对应的标签,在文档和标签之间共享单词表示.对于文档嵌入,使用双向长短时记忆(bi-directional long short-term memory,简称Bi-LSTM)获取每个单词的隐表示,通过使用标签语义注意力机制获得文档中每个单词的权重,从而考虑到每个单词对当前标签的重要性.另外,标签在语义空间里往往是相互关联的,使用标签的语义信息同时也考虑了标签的相关性.在标准多标签文本分类的数据集上得到的实验结果表明,所提出的方法能够有效地捕获重要的单词,并且其性能优于当前先进的多标签文本分类算法.  相似文献   

10.
自动的心电异常识别是一个多标签分类问题,多通过对每个标签训练一个二分类器来实现异常识别。由于异常数目多,特征和异常间以及不同异常间的相关性复杂,自动检测的效果并不理想。为了充分利用异常和特征间的依存关系,提出了一种基于异常标签共现和特征局部相关(Label Co-occurrence and Feature’s local Pertinence, LCFP)的心电异常识别方法。首先,根据标签共现性和特征局部相关性,为标签构建包含宏特征和微特征的联合特征空间。宏特征采用狄利克雷过程混合模型聚类构建,以区分不同的共现标签集;微特征是原始特征空间的一个子集,用于区分共现标签集中的各个标签。进而,在联合特征空间为每个异常训练一个一对多(One-Versus-All)的概率分类器。其次,为充分利用异常的关联,提出在概率分类器排序基础上区分相关和非相关标签,采用Beta分布自适应地学习锚阈值和相关度阈值,以确定实例的相关标签集。LCFP是一种检测多种心电异常的通用方法,提高了心电异常识别的精度。在两个真实数据集上,F1指标分别提高了4%和22.4%,验证了所提方法的有效性。  相似文献   

11.
现有的类属属性学习方法在提取类别标签的特征时,大多仅单一考虑标签间的相关性,忽略实例和实例间以及特征与特征间的相关性,可能会降低分类精度.为了解决此问题,文中设计多类别相关性结合的类属属性多标签学习算法,考虑标签相关性、特征相关性和实例相关性.利用标签之间的余弦相似度计算标签相关性,构建相似图矩阵计算特征相关性和实例相关性.文中算法紧凑地选择标签的类属属性,提高分类精度,有效解决多标签分类遇到的维度过大问题.  相似文献   

12.
分类问题是数据挖掘领域的研究热点之一。多标签分类器可以将数据对象预测为多个类别,训练集中属性相同但对应类标签不同的对象的数目是不平衡的,而现有的评估算法并未能区分其代价。提出了一种基于不同权重的准确性评估方法EMOWDIF,根据多标签数据对象属于相同属性不同类别的数目之间的比值计算相应的权重,对分类器模型给予不同程度的奖惩,从而区分不同分类器的性能。方法用编程实现,并对多标签数据集的分类结果进行评估。实验结果表明该方法能有效评估分类器。  相似文献   

13.
牟甲鹏  蔡剑  余孟池  徐建 《计算机应用研究》2020,37(9):2656-2658,2673
多标签学习中一个样本可同时属于多个类别标签,每个标签都可能拥有反映该标签特定特点的特征,即类属属性,目前已经出现了基于类属属性的多标签分类算法LIFT。针对LIFT算法中未考虑标签之间相互关系的问题,提出一种基于标签相关性的类属属性多标签分类算法CLLIFT。该算法使用标签距离度量标签之间的相关性,通过在类属属性空间附加相关标签的方式完成标签相关性的引入,以达到提升分类性能的目的。在四个多标签数据集上的实验结果表明,所提算法与LIFT算法相比在多个多标签评价指标上平均提升21.1%。  相似文献   

14.
朱旭东  熊贇 《计算机工程》2022,48(4):173-178+190
图像多标签分类作为计算机视觉领域的重要研究方向,在图像识别、检测等场景下得到广泛应用。现有图像多标签分类方法无法有效利用标签相关性信息以及标签语义与图像特征的对应关系,导致分类能力较差。提出一种图像多标签分类的新算法,通过利用标签共现信息和标签先验知识构建图模型,使用多尺度注意力学习图像特征中目标,并利用标签引导注意力融合标签语义特征和图像特征信息,从而将标签相关性和标签语义信息融入到模型学习中。在此基础上,基于图注意力机制构建动态图模型,并对标签信息图模型进行动态更新学习,以充分融合图像信息和标签信息。在图像多标签分类任务上的实验结果表明,相比于现有最优算法MLGCN,该算法在VOC-2007数据集及COCO-2012数据集上的mAP值分别提高了0.6、1.2个百分点,性能有明显提升。  相似文献   

15.
极限多标签文本分类任务具有标签集大、类间关系复杂、数据分布不平衡等特点,是具有挑战性的研究热点。现有模型对标签语义信息利用不足,性能有限。对此,该文提出一种利用层级标签语义信息引导的极限多标签文本分类模型提升策略,在训练和预测过程中给予模型层级标签引导的弱监督语义指导信息,利用这种弱监督信息规约多标签文本分类任务中要对应的多标签语义边界。在标准数据集上的实验结果表明,该文所提策略能够有效提升现有模型性能,尤其在短文本数据集中增效显著,宏精准率最高提升21.23%。  相似文献   

16.
针对标签信息不完整的多标签分类问题,一种新的多标签算法MCWD被提出。它通过有效地恢复训练数据中缺失的标签信息,能够产生更好的分类结果。在训练阶段,MCWD通过迭代更新每个训练实例的权重以及利用两两标签之间的相关性来恢复训练数据中缺失的标签信息;在标签恢复完毕后,利用新得到的训练集来训练分类模型;用此模型对测试集进行预测。实验结果表明,该算法在14个多标签数据集上具有一定的优势。  相似文献   

17.
基于信息增益的多标签特征选择算法   总被引:1,自引:0,他引:1  
多标签特征选择是一种提高多标签分类器性能的技术。针对目前这类技术在给出合理特征子集合时无法同时兼顾计算复杂度和标签间的相关性的问题,提出一种基于信息增益的多标签分类算法。该算法假设特征之间相互独立,首先使用单个特征与整个标签集合之间的信息增益来度量这两者的关联程度,再根据阈值删除不相关的特征以得到最优特征子集合。实验表明,该算法能有效地提高多标签分类器的分类性能。  相似文献   

18.
现有的多标签学习算法往往只侧重于实例空间到标签空间的正向投影,正向投影时由于特征维数降低所产生的实例空间信息丢失的问题往往被忽略。针对以上问题,提出一种基于双向映射学习的多标签分类算法。首先,利用实例空间到标签空间的正向映射损失建立线性多标签分类模型;然后,在模型中引入重构损失正则项构成双向映射模型,补偿由于正向映射时导致的鉴别信息的丢失;最后,将双向映射模型结合标签相关性和实例相关性充分地挖掘标签之间、实例之间的潜在关系,并利用非线性核映射提高模型对非线性数据的处理能力。实验结果表明,与近年来的其他几种方法相比,该方法在汉明损失、一次错误率和排序损失上的性能平均提升17.68%、17.01%、18.57%;在六种评价指标上的性能平均提升了12.37%,验证了模型的有效性。  相似文献   

19.
钱龙  赵静  韩京宇  毛毅 《计算机工程》2022,48(6):73-78+88
多标签学习是机器学习领域的一个研究热点,其能够有效解决真实世界中的多语义问题。在多标签学习任务中,样本的多个标签之间存在一定的关联关系,忽略标签间的相关性会导致模型的泛化性能降低。提出一种基于标签间相关性的多标签学习K近邻算法。充分挖掘样本多标签间的相关性,通过Fp_growth算法得到标签的频繁项集。针对频繁项和标签分别构建评分模型和阈值模型,评分模型用于衡量样本与频繁项或标签之间的关联程度,阈值模型用于求解频繁项或标签对应的判别阈值,结合评分模型和阈值模型对样本所属频繁项进行预测,进而确定样本标签集。在经典数据集Emotions和Scene上的实验结果表明,该算法的F1-Measure指标分别达到66.6%和73.3%,相比CC、LP、RAKEL、MLDF等基准方法,其F1-Measure分别平均提高3.8和2.1个百分点,该算法通过合理利用标签间的相关性使得分类性能得到有效提升。  相似文献   

20.
基于概率主题模型的标签预测   总被引:2,自引:1,他引:1  
袁柳  张龙波 《计算机科学》2011,38(7):175-180
充分利用用户自定义标签信息,是理解Web资源语义,提高Web应用智能程度的重要途径。针对资源标签分派中大量存在的信息不完整、不一致的现象,建立基于用户标记行为特征的概率主题模型,利用概率主题模型实现对标记信息不完整资源的标签预测。根据每个资源所对应的标签的统计特征,可产生不同形式的标签文档,通过分析标签文档所生成主题的性能,确定适合于特定数据集的标签文档形式;利用同一主题内词汇间的高度相关性,设计合理的预测标签排序方法,从而实现对标记信息不完整资源的标签预测以及标签语义不一致现象的检测。在数据集DeliciousT 140和Wikilo+上的测试表明,所提方法能有效实现标签预测,并可提高信息检索的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号