首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 718 毫秒
1.
多标签分类是指在一个样本中可能会有多个标签同时存在的分类问题,目前已被广泛应用于文本分类、图像分类、音乐及视频分类等领域。与传统的单标签分类问题不同,由于标签之间可能存在相关性或者依赖关系,多标签分类问题变得更加复杂。近年来,深度学习技术发展迅猛,结合深度学习的多标签分类方法逐渐成为研究热点。因此,从传统的和基于深度学习的角度对多标签分类方法进行了总结,分析了每一种方法的关键思想、代表性模型和优缺点。在传统的多标签分类方法中,分别介绍了问题转换方法和算法自适应方法。在基于深度学习的多标签分类方法中,特别是对最新的基于Transformer的多标签分类方法进行了综述,该方法目前已成为解决多标签分类问题的主流方法之一。此外,介绍了来自不同领域的多标签分类数据集,并简要分析了多标签分类的15个评价指标。最后,从多模态数据多标签分类、基于提示学习的多标签分类和不平衡数据多标签分类三方面对未来工作进行了展望,以期进一步推动多标签分类的发展和应用。  相似文献   

2.
基于深度学习的医学图像分析是智慧医疗的一个重要方向。但是通常情况下,医学图像数据集数据量很小,而且由于医学图像的标注困难,耗费大量人力物力,所以带标签的训练数据很难获取。如何使用极少的带标签数据和无标签的数据得到一个较好的网络模型是本文的主要研究内容。该文提出基于深度聚类的自监督网络模型作为特征提取器,并且使用标签传播算法对特征进行分类,解决了只有极少量标签(例如1张,5张或者10张)即小样本情况下的医学图像分类问题,在BreakHis数据集上取得了比传统机器学习算法更好的效果,并且接近于全监督学习方法。  相似文献   

3.
主要研究了基于自然语言处理和机器学习算法的制造工艺公差检测文本分类的模型,针对传统的工艺公差检测任务人工分类难度大、效率低、易出错等问题,提出一种基于自然语言处理的深度学习建模方法。通过对大量真实的制造企业工艺检测工序短文本数据进行预处理,采用Jieba分词工具提取词干、去停用词,将关键词映射到高维度的向量中作为机器学习模型的特征向量,采用CNN模型、LSTM模型和GRU模型等机器学习神经网络算法进行训练以建立文本与类别标签值的联系。将模型用公差检测文本实例进行验证,结果表明所提出方法训练得到的模型可辅助检测人员完成公差检测任务分类,且在准确度与效率方面优于传统人工的方式。  相似文献   

4.
近年来,机器学习被逐渐运用到基于社交媒体文本数据的抑郁症检测中并凸显重要应用价值。为梳理其应用现状和发展方向,对用于抑郁症检测的社交媒体文本数据集、数据预处理和机器学习方法进行整理分类。在数据特征表示方面,对比分析了基础特征表示、静态词嵌入和语境词嵌入。全面分析了利用不同基础特征和不同算法类型的传统机器学习以及深度学习进行抑郁症检测的性能和特点。总结并建议未来在中文数据集的创建、模型的可解释性、基于隐喻的检测和轻量级预训练模型方面做进一步的探索。  相似文献   

5.
随着企业信息传递量的激增,围绕信息精准推送的研究成为相关领域的热点,对于企业推送短文本的精准分类更是其中非常重要的一环。传统的短文本分类多采用TF-IDF算法构建词向量,并采用机器学习方法进行分类,存在维度过高、分类精准度不够等问题。提出基于深度学习的企业推送短文本有监督分类方法,引入深度神经网络代替机器学习分类方法,创建TextCNN模型对企业推送短文本进行处理并分类。实验结果表明,提出方法在开源数据集THUCNews上达到了96.53%的准确率,平均处理时间较传统方法最少缩短400%以上,在性能和准确率上都得到了较好的提升,具有较高的应用价值。  相似文献   

6.
文本分类是指用计算机对文本(或其他实体)按照一定的分类体系或标准进行自动分类标记。伴随着信息的爆炸式增长,人工标注数据已经变得耗时、质量低下,且受到标注人主观意识的影响。因此,利用机器自动化对文本进行标注具有一定的现实意义,将重复且枯燥的文本标注任务交由计算机进行处理能够有效克服以上问题,同时所标注的数据具有一致性、高质量等特点。其应用场景众多,包括:情感分析、主题分类、意图识别等;其分类标签可以是:情感分析(积极、消极、中性)、主题分类(历史、体育、旅游、情感)等。传统的文本分类早期是通过模式词、关键词等,同时结合一些规则策略进行。此方法的缺点很明显,人工成本高,且召回率比较低。此后,使用经典传统的机器学习方法做文本分类任务初显成效,即“特征工程+浅层分类模型”,被称为传统机器学习方法。近些年,伴随深度学习的异军突起,基于深度学习的文本分类方法兴起,本文基于LSTM文本分类,针对LSTM网络结构的缺陷,引入注意力机制Attention,优化文本分类模型,在文本长度较长的情况下,效果尤为显著。  相似文献   

7.
金融文本多标签分类算法可以根据用户需求在海量金融资讯中实现信息检索。为进一步提升金融文本标签识别能力,建模金融文本多标签分类中标签之间的相关性,提出基于图深度学习的金融文本多标签分类算法。图深度学习通过深度网络学习局部和全局的图结构特征,可以刻画节点之间的复杂关系。通过建模标签关联实现标签之间的知识迁移,是构造具有强泛化能力算法的关键。所提算法结合标签之间的关联信息,采用基于双向门控循环网络和标签注意力机制得到的新闻文本对应不同标签的特征表示,通过图神经网络学习标签之间的复杂依赖关系。在真实数据集上的实验结果表明,显式建模标签之间的相关性能够极大地增强模型的泛化能力,在尾部标签上的性能提升尤其显著,相比CAML、BIGRU-LWAN和ZACNN算法,该算法在所有标签和尾部标签的宏观F1值上最高提升3.1%和6.9%。  相似文献   

8.
传统的多标签文本分类算法在挖掘标签的关联信息和提取文本与标签之间的判别信息过程中存在不足,由此提出一种基于标签组合的预训练模型与多粒度融合注意力的多标签文本分类算法。通过标签组合的预训练模型训练得到具有标签关联性的文本编码器,使用门控融合策略融合预训练语言模型和词向量得到词嵌入表示,送入预训练编码器中生成基于标签语义的文本表征。通过自注意力和多层空洞卷积增强的标签注意力分别得到全局信息和细粒度语义信息,自适应融合后输入到多层感知机进行多标签预测。在特定威胁识别数据集和两个通用多标签文本分类数据集上的实验结果表明,提出的方法在能够有效捕捉标签与文本之间的关联信息,并在F1值、汉明损失和召回率上均取得了明显提升。  相似文献   

9.
自然语言处理是人工智能与机器学习领域的重要方向,它的目标是利用计算机技术来分析、理解和处理自然语言。自然语言处理的一个重点研究方向是从文本内容中获取信息,并且按照一定的标签体系或标准将文本内容进行自动分类标记。相比于单一标签文本分类而言,多标签文本分类具有一条数据属于多个标签的特点,使得更难从文本信息中获得多类别的数据特征。层级多标签文本分类又是其中的一个特别的类别,它将文本中的信息对应划分到不同的类别标签体系中,各个类别标签体系又具有互相依赖的层级关系。因此,如何利用其内部标签体系中的层级关系更准确地将文本分类到对应的标签中,也就成了解决问题的关键。为此,提出了一种基于并行卷积网络信息融合的层级多标签文本分类算法。首先,该算法利用BERT模型对文本信息进行词嵌入,接着利用自注意力机制增强文本信息的语义特征,然后利用不同卷积核对文本数据特征进行抽取。通过使用阈值控制树形结构建立上下位的节点间关系,更有效地利用了文本的多方位语义信息实现层级多标签文本分类任务。在公开数据集Kanshan-Cup和CI企业信息数据集上的结果表明,该算法在宏准确率、宏召回率与微F1值3种评价指标上均优于主流的...  相似文献   

10.
针对传统分类算法对维吾尔文文本分类准确率不高的问题,提出了一种基于深度置信网络的维吾尔文短信文本分类模型。深度学习模拟人脑的多层次结构,对数据从低层到高层逐渐地进行特征提取,深层挖掘数据集的分布规律,从而提高分类准确性。通过逐层无监督的方法完成深度置信网络的初始化,并结合softmax回归分类器实现文本的分类。最后在收集的维吾尔文短信数据集上进行实验论证。实验结果表明,相比KNN、SVM和决策树算法,深度置信网络具有更好的分类效果,准确率更高。  相似文献   

11.
司法文书短文本的语义多样性和特征稀疏性等特点,对短文本多标签分类精度提出了很大的挑战,传统单一模型的分类算法已无法满足业务需求。为此,提出一种融合深度学习与堆叠模型的多标签分类方法。该方法将分类器划分成两个层次,第一层使用BERT、卷积神经网络、门限循环单元等深度学习方法作为基础分类器,每个基础分类器模型通过K折交叉验证得到所有数据的多标签分类概率值,将此概率值数据进行融合形成元数据;第二层使用自定义的深度神经网络作为混合器,以第一层的元数据为输入,通过训练多标签概率矩阵获取模型参数。该方法将强分类器关联在一起,获得比单个分类器更加强大的性能。实验结果表明,深度学习堆叠模型实现了87%左右的短文本分类F1分数,优于BERT、卷积神经网络、循环神经网络及其他单个模型的性能。  相似文献   

12.
不平衡数据集的特点导致了在分类时产生了诸多难题。对不平衡数据集的分类方法进行了分析与总结。在数据采样方法中从欠采样、过采样和混合采样三方面介绍不平衡数据集的分类方法;在欠采样方法中分为基于[K]近邻、Bagging和Boosting三种方法;在过采样方法中从合成少数过采样技术(Synthetic Minority Over-sampling Technology,SMOTE)、支持向量机(Support Vector Machine,SVM)两个角度来分析不平衡数据集的分类方法;对这两类采样方法的优缺点进行了比较,在相同数据集下比较算法的性能并进行分析与总结。从深度学习、极限学习机、代价敏感和特征选择四方面对不平衡数据集的分类方法进行了归纳。最后对下一步工作方向进行了展望。  相似文献   

13.
多示例多标签学习是一种新型的机器学习框架。在多示例多标签学习中,样本以包的形式存在,一个包由多个示例组成,并被标记多个标签。以往的多示例多标签学习研究中,通常认为包中的示例是独立同分布的,但这个假设在实际应用中是很难保证的。为了利用包中示例的相关性特征,提出了一种基于示例非独立同分布的多示例多标签分类算法。该算法首先通过建立相关性矩阵表示出包内示例的相关关系,每个多示例包由一个相关性矩阵表示;然后建立基于不同尺度的相关性矩阵的核函数;最后考虑到不同标签的预测对应不同的核函数,引入多核学习构造并训练针对不同标签预测的多核SVM分类器。图像和文本数据集上的实验结果表明,该算法大大提高了多标签分类的准确性。  相似文献   

14.
Many neural network methods such as ML-RBF and BP-MLL have been used for multi-label classification. Recently, extreme learning machine (ELM) is used as the basic elements to handle multi-label classification problem because of its fast training time. Extreme learning machine based auto encoder (ELM-AE) is a novel method of neural network which can reproduce the input signal as well as auto encoder, but it can not solve the over-fitting problem in neural networks elegantly. Introducing weight uncertainty into ELM-AE, we can treat the input weights as random variables following Gaussian distribution and propose weight uncertainty ELM-AE (WuELM-AE). In this paper, a neural network named multi layer ELM-RBF for multi-label learning (ML-ELM-RBF) is proposed. It is derived from radial basis function for multi-label learning (ML-RBF) and WuELM-AE. ML-ELM-RBF firstly stacks WuELM-AE to create a deep network, and then it conducts clustering analysis on samples features of each possible class to compose the last hidden layer. ML-ELM-RBF has achieved satisfactory results on single-label and multi-label data sets. Experimental results show that WuELM-AE and ML-ELM-RBF are effective learning algorithms.  相似文献   

15.
一种利用关联规则挖掘的多标记分类算法   总被引:2,自引:0,他引:2  
刘军煜  贾修一 《软件学报》2017,28(11):2865-2878
多标记学习广泛存在于现实生活中,是当今机器学习领域的研究热点.在多标记学习框架中,每个对象由一个示例构成,但可能同时属于多个类别标记,并且各个标记之间相互关联,所以挖掘多标记之间的关联性对于多标记学习框架具有重要的意义.首先对经典的关联规则算法进行改进,提出了基于矩阵分治的频繁项集挖掘算法,并证明了该算法挖掘频繁项集的正确性;进而将该算法应用于多标记学习框架中,分别提出了基于全局关联规则挖掘和局部关联规则挖掘的多标记分类算法;最后对所提出的算法与现有多标记算法进行实验对比,结果表明,算法在5种不同的评价准则下能够取得更好的效果.  相似文献   

16.
文本分类任务作为文本挖掘的核心问题,已成为自然语言处理领域的一个重要课题.而短文本分类由于稀疏性、实时性和不规范性等特点,已成为文本分类亟待解决的问题之一.在某些特定场景,短文本存在大量隐含语义,由此给挖掘有限文本内的隐含语义特征等任务带来挑战.已有的方法对短文本分类主要采用传统机器学习或深度学习算法,但该类算法的模型构建复杂且工作量大,效率不高.此外,短文本包含有效信息较少且口语化严重,对模型的特征学习能力要求较高.针对以上问题,提出了KAe RCNN模型,该模型在TextRCNN模型的基础上,融合了知识感知与双重注意力机制.知识感知包含了知识图谱实体链接和知识图谱嵌入,可以引入外部知识以获取语义特征,同时,双重注意力机制可以提高模型对短文本中有效信息提取的效率.实验结果表明,KAe RCNN模型在分类准确度、F1值和实际应用效果等方面显著优于传统的机器学习算法.对算法的性能和适应性进行了验证,准确率达到95.54%, F1值达到0.901,对比4种传统机器学习算法,准确率平均提高了约14%, F1值提升了约13%.与TextRCNN相比,KAe RCNN模型在准确性方面提升了约3%...  相似文献   

17.
实体关系抽取作为信息抽取任务的重要组成之一,能够对更小粒度的信息进行语义分析,为更多任务提供数据支持。关系抽取发展至今,总体可分为基于传统机器学习和基于深度学习两种方式。基于传统机器学习的关系抽取研究主要以统计和基于规则相结合的方法为主。基于深度学习的框架通过引入远程监督、小样本学习、注意力机制、强化学习、多示例多标记学习等方法取得了丰富的研究成果。回顾实体关系抽取的发展历程,对每种模型进行分析和讨论;结合深度学习方法的最新动态,对实体关系抽取未来的研究方向和趋势进行展望。  相似文献   

18.
自然场景文本检测对于机器理解场景等有着重要作用。近年来,随着深度学习的发展,自然场景文字检测方法也日新月异,取得了很好的检测效果。分析、总结了近年来基于深度学习的场景文字检测方法,将其归纳分类为基于回归、基于分割,以及两者混合三种类型,并对各类检测方法的优缺点进行了对比分析。介绍了场景文本检测性能指标及常用的公开数据集以及下载方式。对场景文字检测领域研究进行总结和展望,有望为深度学习场景文本检测方法提供新的研究方向。  相似文献   

19.
文本语言的情感分析历来是自然语言处理领域的热点研究课题,尤其是在当下互联网迈入web2.0时代,多样的社交网络平台呈现出巨量而丰富的文本情感信息,因此挖掘网络数据文本信息并作情感倾向判断对人机交互与人工智能具有重大的现实意义。传统的解决文本情感分析问题的方法主要是浅层学习算法,利用回归、分类等方案实现特征的提取及分类。以这类方法为起点,本文探索采用深度学习的方法对网络文本进行细粒度的情感分析,以期达到即时获取依附于网络世界的社会人的情感,甚至是让机器达到对人类情感表达的深度理解。对于深度学习的具体实现,本文采用的是降噪自编码器来对文本进行无标记特征学习并进行情感分类,后文中利用实验训练获得最佳的参数设置,并通过对实验结果的分析和评估论证深度学习对于情感信息的强大解析能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号