首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
多标签学习广泛应用于文本分类、标签推荐、主题标注等.最近,基于深度学习技术的多标签学习受到广泛关注,针对如何在多标签学习中有效挖掘并利用高阶标签关系的问题,提出一种基于图卷积网络探究标签高阶关系的模型TMLLGCN.该模型采用GCN的映射函数从数据驱动的标签表示中生成对象分类器挖掘标签高阶关系.首先,采用深度学习方法提取文本特征,然后以数据驱动方式获得基础标签关联表示矩阵,为更好地建模高阶关系及提高模型效果,在基础标签关联表示矩阵上考虑未标记标签集对已知标签集的影响进行标签补全,并以此相关性矩阵指导GCN中标签节点之间的信息传播,最后将提取的文本特征应用到学习高阶标签关系的图卷积网络分类器进行端到端训练,综合标签关联和特征信息作为最终的预测结果.在实际多标签数据集上的实验结果表明,提出的模型能够有效建模标签高阶关系且提升了多标签学习的效果.  相似文献   

2.
李航  王进  赵蕊 《智能系统学报》2017,12(5):624-639
近年来,多标签学习在图像识别和文本分类等多个领域得到了广泛关注,具有越来越重要的潜在应用价值。尽管多标签学习的发展日新月异,但仍然存在两个主要挑战,即如何利用标签间的相关性以及如何处理大规模的多标签数据。针对上述问题,基于MLHN算法,提出一种能有效利用标签相关性且能处理大数据集的基于Spark的多标签超网络集成算法SEI-MLHN。该算法首先引入代价敏感,使其适应不平衡数据集。其次,改良了超网络演化学习过程,并优化了损失函数,降低了算法时间复杂度。最后,进行了选择性集成,使其适应大规模数据集。在11个不同规模的数据集上进行实验,结果表明,该算法具有较好的分类性能,较低的时间复杂度且具备良好的处理大规模数据集的能力。  相似文献   

3.
随着大数据时代的到来,大规模多标签数据挖掘方法受到广泛关注。多标签最近邻算法MLKNN是一种简单高效、应用广泛的多标签分类方法,其分类精度在很多应用中都高于其他常见的多标签学习方法。然而随着需要处理的数据规模越来越大,传统串行ML-KNN算法已经难以满足大数据应用中时间和存储空间上的限制。结合Spark的并行机制和其基于内存的迭代计算特点,提出了一种基于Spark并行框架的ML-KNN算法SML-KNN。在Map阶段分别找到待预测样本每个分区的K近邻,随后Reduce阶段根据每个分区的近邻集合确定最终的K近邻,最后并行地对近邻的标签集合进行聚合,通过最大化后验概率准则输出待预测样本的目标标签集合。串行和并行环境下的对比实验结果表明,SML-KNN在保证分类精度的前提下性能与计算资源呈近似线性关系,提高了ML-KNN算法对大规模多标签数据的处理能力。  相似文献   

4.
噪声标签在实际数据集中普遍存在,这将严重影响深度神经网络的学习效果。针对此问题,提出了一种基于标签差学习的噪声标签数据识别与数据再标记方法。该方法设计两种不同的伪标签生成策略,利用基础网络所识别的干净数据生成人工噪声数据集,并计算该数据集的标签差向量或标签差矩阵;以强化相似类别间的关联性为目标,利用全连接层与单行卷积核,设计标签差向量网络与标签差矩阵网络等两种噪声学习网络直接学习样本数据的噪声概率;设计与噪声率线性相关的阈值,对干净数据与噪声数据进行判断。通过设计实验,对包括伪标签生成策略、网络结构、训练迭代次数等影响网络识别性能的因素进行分析。在公开数据集上的测试表明,在多种噪声分布情况中,该算法在保持干净数据的准确率与召回率基本稳定的前提下,能显著提高噪声数据的准确率与召回率,提高幅度最大为16.45%及21.01%。  相似文献   

5.
传统单标签挖掘技术研究中,每个样本只属于一个标签且标签之间两两互斥。而在多标签学习问题中,一个样本可能对应多个标签,并且各标签之间往往具有关联性。目前,标签间关联性研究逐渐成为多标签学习研究的热门问题。首先为适应大数据环境,对传统关联规则挖掘算法Apriori进行并行化改进,提出基于Hadoop的并行化算法Apriori_ING,实现各节点独立完成候选项集的生成、剪枝与支持数统计,充分发挥并行化的优势;通过Apriori_ING算法得到的频繁项集和关联规则生成标签集合,提出基于推理机的标签集合生成算法IETG。然后,将标签集合应用到多标签学习中,提出多标签学习算法FreLP。FreLP利用关联规则生成标签集合,将原始标签集分解为多个子集,再使用LP算法训练分类器。通过实验将FreLP与现有的多标签学习算法进行对比,结果表明在不同评价指标下所提算法可以取得更好的结果。  相似文献   

6.
多标签学习是一种非常重要的机器学习范式.传统的多标签学习方法是在监督或半监督的情况下设计的.通常情况下,它们需要对所有或部分数据进行准确的属于多个类别的标注.在许多实际应用中,拥有大量标注的标签信息往往难以获取,限制了多标签学习的推广和应用.与之相比,标签相关性作为一种常见的弱监督信息,它对标注信息的要求较低.如何利用标签相关性进行多标签学习,是一个重要但未研究的问题.提出了一种利用标签相关性作为先验的弱监督多标签学习方法(WSMLLC).该模型利用标签相关性对样本相似性进行了重述,能够有效地获取标签指示矩阵;同时,利用先验信息对数据的投影矩阵进行约束,并引入回归项对指示矩阵进行修正.与现有方法相比,WSMLLC模型的突出优势在于:仅提供标签相关性先验,就可以实现多标签样本的标签指派任务.在多个公开数据集上进行实验验证,实验结果表明:在标签矩阵完全缺失的情况下,WSMLLC与当前先进的多标签学习方法相比具有明显优势.  相似文献   

7.
代贺鹏  孙昌爱  金慧  肖明俊 《软件学报》2023,34(11):5008-5028
深度学习系统具有强大的学习与推理能力, 在无人驾驶、语音识别和机器人等领域应用广泛. 由于数据集的限制以及依赖人工标签数据, 深度学习系统易于出现非预期的行为. 近年来, 深度学习系统的质量问题受到广泛的关注, 特别是在安全攸关的领域. 由于模糊测试具有较强的故障揭示能力, 运用模糊测试技术对深度学习系统进行测试成为研究热点. 从测试用例生成(包括种子队列构建、种子选择和种子变异)、测试结果判定、覆盖分析3个方面对已有的深度学习系统的模糊测试技术进行总结, 并介绍常用的数据集以及度量指标, 最后对其发展方向进行展望.  相似文献   

8.
RNA结合蛋白(RBP)是一类伴随RNA调控代谢过程与RNA结合的蛋白质的总称.一种RBP可能存在多种靶标RNA,其表达缺陷会造成多种疾病.现有的方法大都是针对某种特定的RBP设计二分类模型,预测一条RNA是否可以与之结合.但这些方法没有考虑到不同RBP之间的结合相似性和关联性.对此,iDeepM利用多标签深度学习法进行了改进.此方法使用多标签技术和长短时记忆网络(LSTM),学习到不同RBP之间的结合相似性,预测一条给定的RNA与多种RBP的结合情况,但是该方法未能对RNA序列进行充分的特征学习和多标签学习,预测精度较低.延续iDeepM多标签的研究方法,提出新方法RRMVL,首次使用RNA序列视角、氨基酸序列视角、RNA序列语义视角和多间隙二肽成分视角组成多视角数据来处理多标签RBP识别问题.为了利用多视角数据的不同学习优势,融合四种视角提取到的深度特征,使用逻辑回归原理对它们进行多标签特征学习,将学习后的加权特征向量输入至链式多标签分类器中训练,使之达到最优多标签链式学习的效果.实验研究表明,融合多视角和多标签学习的RNA结合蛋白识别模型预测精度较之前使用单视角方法有了明显的提升.  相似文献   

9.
由于标签空间过大,标签分布不平衡问题在多标签数据集中广泛存在,解决该问题在一定程度上可以提高多标签学习的分类性能。通过标签相关性提升分类性能是解决该问题的一种最常见的有效策略,众多学者进行了大量研究,然而这些研究更多地是采用基于正相关性策略提升性能。在实际问题中,除了正相关性外,标签的负相关性也可能存在,如果在考虑正相关性的同时,兼顾负相关性,无疑能够进一步改善分类器的性能。基于此,提出了一种基于负相关性增强的不平衡多标签学习算法——MLNCE,旨在解决多标签不平衡问题的同时,兼顾标签间的正负相关性,从而提高多标签分类器的分类性能。首先利用标签密度信息改造标签空间;然后在密度标签空间中探究标签真实的正反相关性信息,并添加到分类器目标函数中;最后利用加速梯度下降法求解输出权重以得到预测结果。在11个多标签标准数据集上与其他6种多标签学习算法进行对比实验,结果表明MLNCE算法可以有效提高分类精度。  相似文献   

10.
情绪生成是人工情感计算研究中的子任务,在对话系统中情绪生成任务旨在生成待回复话语中的情绪类别。对话情绪生成可以推动对话情绪理解和对话表达研究,同时在智能闲聊机器人、情绪安慰、推荐系统和人机情感交互等诸多智能化领域具有重要的理论意义和实际应用价值。得益于深度神经网络在自然语言处理领域的优异表现,基于深度学习的对话系统情绪生成受到越来越多研究人员的关注。总结目前基于深度学习的对话情绪生成相关工作,现阶段利用深度学习的对话系统情绪生成相关研究主要包含三方面内容:情绪感知、情绪预测和情绪决策。简要介绍了一些常用的情绪对话数据集,最后对该任务当前问题进行了归纳概况并展望未来发展趋势。  相似文献   

11.
多标记学习考虑一个对象与多个类别标记相关联的情况,是当前国际机器学习领域研究的热点问题之一。多标记学习的研究主要围绕降低特征空间和标记空间的复杂性,提高多标记学习算法的精度而展开。针对这一特点,从多标记分类、标记排序、多标记维度约简和标记相关性分析四个方面,对多标记学习的研究进展进行了归纳与阐述,分析了当前多标记学习存在的问题。最后指出了目前多标记学习若干发展方向,为该领域的进一步研究提供参考。  相似文献   

12.
多标记学习主要用于解决因单个样本对应多个概念标记而带来的歧义性问题,而半监督多标记学习是近年来多标记学习任务中的一个新的研究方向,它试图综合利用少量的已标记样本和大量的未标记样本来提高学习性能。为了进一步挖掘未标记样本的信息和价值并将其应用于文档多标记分类问题,该文提出了一种基于Tri-training的半监督多标记学习算法(MKSMLT),该算法首先利用k近邻算法扩充已标记样本集,结合Tri-training算法训练分类器,将多标记学习问题转化为标记排序问题。实验表明,该算法能够有效提高文档分类性能。  相似文献   

13.
张志浩  林耀进  卢舜  郭晨  王晨曦 《计算机应用》2021,41(10):2849-2857
多标记特征选择已在图像分类、疾病诊断等领域得到广泛应用;然而,现实中数据的标记空间往往存在部分标记缺失的问题,这破坏了标记间的结构性和关联性,使得学习算法难以准确地选择重要特征。针对此问题,提出一种缺失标记下基于类属属性的多标记特征选择(MFSLML)算法。首先,通过利用稀疏学习方法获取每个类标记的类属属性;同时基于线性回归模型构建类属属性与标记的映射关系,以用于恢复缺失标记;最后,选取7组数据集以及4个评价指标进行实验。实验结果表明:相比基于最大依赖度和最小冗余度的多标记特征选择算法(MDMR)和基于特征交互的多标记特征选择算法(MFML)等一些先进的多标记特征选择算法,MFSLML在平均查准率指标上能够提升4.61~5.5个百分点,由此可见MFSLML具有更优的分类性能。  相似文献   

14.
用于多标记学习的阈值确定算法   总被引:1,自引:0,他引:1       下载免费PDF全文
秦锋  黄俊  程泽凯 《计算机工程》2010,36(21):214-216
提出一种多标记学习阈值确定算法(DTML),为每个类别标记确定一个阈值。当分类器将一个测试示例预测为某个类别标记的分值大于该类别标记的阈值时,则将该类别标记添加到该测试示例的最终分类结果中。该算法采用编程实现,并将其应用于PT5方法和TML算法。实验结果表明,利用DTML算法为多标记学习算法确定阈值,能够得到较好的分类效果。  相似文献   

15.
多标记学习是针对一个实例同时与一组标签相关联而提出的一种机器学习框架,是该领域研究热点之一,降维是多标记学习一个重要且具有挑战性的工作。针对有监督的多标记维数约简方法,提出一种无监督自编码网络的多标记降维方法。首先,通过构建自编码神经网络,对输入数据进行编码和解码输出;然后,引入稀疏约束计算总体成本,使用梯度下降法进行迭代求解;最后,通过深度学习训练获得自编码网络学习模型,提取数据特征实现维数约简。实验中使用多标记算法ML-kNN做分类器,在6个公开数据集上与其他4种方法对比。实验结果表明,该方法能够在不使用标记的情况下有效提取特征,降低多标记数据维度,稳定提高多标记学习性能。  相似文献   

16.
多标记学习主要用于解决单个样本同时属于多个类别的问题.传统的多标记学习通常假设训练数据集含有大量有标记的训练样本.然而在许多实际问题中,大量训练样本中通常只有少量有标记的训练样本.为了更好地利用丰富的未标记训练样本以提高分类性能,提出了一种基于正则化的归纳式半监督多标记学习方法——MASS.具体而言,MASS首先在最小化经验风险的基础上,引入两种正则项分别用于约束分类器的复杂度及要求相似样本拥有相似结构化多标记输出,然后通过交替优化技术给出快速解法.在网页分类和基因功能分析问题上的实验结果验证了MASS方法的有效性.  相似文献   

17.
Multi-label learning deals with objects associated with multiple class labels, and aims to induce a predictive model which can assign a set of relevant class labels for an unseen instance. Since each class might possess its own characteristics, the strategy of extracting label-specific features has been widely employed to improve the discrimination process in multi-label learning, where the predictive model is induced based on tailored features specific to each class label instead of the identical instance representations. As a representative approach, LIFT generates label-specific features by conducting clustering analysis. However, its performance may be degraded due to the inherent instability of the single clustering algorithm. To improve this, a novel multi-label learning approach named SENCE (stable label-Specific features gENeration for multi-label learning via mixture-based Clustering Ensemble) is proposed, which stabilizes the generation process of label-specific features via clustering ensemble techniques. Specifically, more stable clustering results are obtained by firstly augmenting the original instance repre-sentation with cluster assignments from base clusters and then fitting a mixture model via the expectation-maximization (EM) algorithm. Extensive experiments on eighteen benchmark data sets show that SENCE performs better than LIFT and other well-established multi-label learning algorithms.   相似文献   

18.
多标签特征选择是针对多标签数据的特征选择技术,提高多标签分类器性能的重要手段。提出一种基于流形学习的约束Laplacian分值多标签特征选择方法(Manifold-based Constraint Laplacian Score,M-CLS)。方法分别在数据特征空间和类别标签空间定义两种Laplacian分值:在特征空间利用逻辑型类别标签的相似性对邻接矩阵进行改进,定义特征空间的约束Laplacian分值;在标签空间基于流形学习将逻辑型类别标签映射为数值型,定义实值标签空间的Laplacian分值。将两种分值的乘积作为最终的特征评价指标。实验结果表明,所提方法性能优于多种多标签特征选择方法。  相似文献   

19.
赵海峰  余强  曹俞旦 《计算机科学》2014,41(12):160-163
多标签学习用于处理一个样本同时拥有多个标签的问题。已有的多标签懒惰学习算法IMLLA未充分考虑样本分布的特点,即在构建样本的近邻点集时,近邻点个数取固定值,这可能会将相似度高的点排除在近邻集之外,或者将相似度低的点包括在近邻集内,影响分类方法的性能。针对IMLLA的缺陷,将粒计算的思想加入近邻集的构建,提出一种基于粒计算的多标签懒惰学习算法(GMLLA)。该方法通过粒度控制,确定样本近邻点集,使得近邻集内的样本具有高相似度。实验结果表明,本算法的性能优于IMLLA。  相似文献   

20.
针对现有的多标记迁移学习忽略条件分布而导致泛化能力不足的问题,设计了一种基于联合分布的多标记迁移学习(Multi-label Transfer Learning via Joint Distribution Alignment,J-MLTL)。分解原始特征生成特征子空间,在子空间中计算条件分布的权重系数,最小化跨领域数据的边际分布和条件分布差异;此外,为了防止标记内部结构信息损失,利用超图对具有多个相同标签的数据进行连接,保持领域内几何流行结构不受领域外知识结构的影响,进一步最小化领域间的分布差异。实验结果表明,相比于已有多标记迁移学习算法在分类精度方面具有显著提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号