首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
现实世界的大量应用,比如文档归类、网页分类、专利分类等,其类别信息(标签)是一个具有层次关系的体系,对它们进行自动分类涉及到在此层次标签体系中选择多个正确的标签,因此形成了一类层次多标签文本分类问题.如何学习和利用这些不同层级的关系、并对分类结果从层级关系遵循性的角度进行评价成为层次多标签分类问题的难点和挑战.本文对层...  相似文献   

2.
肖琳  陈博理  黄鑫  刘华锋  景丽萍  于剑 《软件学报》2020,31(4):1079-1089
自大数据蓬勃发展以来,多标签分类一直是令人关注的重要问题,在现实生活中有许多实际应用,如文本分类、图像识别、视频注释、多媒体信息检索等.传统的多标签文本分类算法将标签视为没有语义信息的符号,然而,在许多情况下,文本的标签是具有特定语义的,标签的语义信息和文档的内容信息是有对应关系的,为了建立两者之间的联系并加以利用,提出了一种基于标签语义注意力的多标签文本分类(LAbel Semantic Attention Multi-label Classification,简称LASA)方法,依赖于文档的文本和对应的标签,在文档和标签之间共享单词表示.对于文档嵌入,使用双向长短时记忆(bi-directional long short-term memory,简称Bi-LSTM)获取每个单词的隐表示,通过使用标签语义注意力机制获得文档中每个单词的权重,从而考虑到每个单词对当前标签的重要性.另外,标签在语义空间里往往是相互关联的,使用标签的语义信息同时也考虑了标签的相关性.在标准多标签文本分类的数据集上得到的实验结果表明,所提出的方法能够有效地捕获重要的单词,并且其性能优于当前先进的多标签文本分类...  相似文献   

3.
文本分类作为自然语言处理中一个基本任务,在20世纪50年代就已经对其算法进行了研究,现在单标签文本分类算法已经趋向成熟,但是对于多标签文本分类的研究还有很大的提升空间.介绍了多标签文本分类的基本概念以及基本流程,包括数据集获取、文本预处理、模型训练和预测结果.介绍了多标签文本分类的方法.这些方法主要分为两大类:传统机器...  相似文献   

4.
本文针对词粒度注意力的缺点,通过借鉴HAN层次化注意力机制的思想,提出将层次化注意力机制运用于编码器层中,进而得到句子粒度的隐藏层状态信息;在此基础上,解码器层基于句子粒度的隐藏层状态信息进行注意力操作;采用辅助向量的方法避免了序列生成过程存在的重复标签生成问题。最后通过引入开源数据集进行了有效性验证。  相似文献   

5.
多标签文本分类是一项基础而实用的任务,其目的是为文本分配多个可能的标签。近年来,人们提出了许多基于深度学习的标签关联模型,以结合标签的信息来学习文本的语义表示,取得了良好的分类性能。通过改进标签关联的建模和文本语义表示来推进这一研究方向。一方面,构建的层级图标签表示,除了学习每个标签的局部语义外,还进一步研究多个标签共享的全局语义。另一方面,为了捕捉标签和文本内容间的联系并加以利用,使用标签文本注意机制来引导文本特征的学习过程。在三个多标签基准数据集上的实验表明,该模型与其他方法相比具有更好的分类性能。  相似文献   

6.
针对标签随着时间变化的动态多标签文本分类问题,提出了一种基于标签语义相似的动态多标签文本分类算法。该算法在训练阶段,首先按照标签固定训练得到一个基于卷积神经网络的多标签文本分类器,然后以该分类器的倒数第二层的输出为文本的特征向量。由于该特征向量是在有标签训练得到的,因而相对于基于字符串即文本内容而言,该特征向量含有标签语义信息。在测试阶段,将测试文档输入训练阶段的多标签文本分类器获取相应的特征向量,然后计算相似性,同时乘以时间衰减因子修正,使得时间越近的文本具有较高的相似性。最后,采用最近邻算法分类。实验结果表明,该算法在处理动态多标签文本分类问题上具有较优的性能。  相似文献   

7.
为降低数据标注的成本并提高投诉文本分类的准确率,本文提出基于半监督协同训练的多标签文本分类模型。该模型通过构建多个基分类器组的方式进行训练,其中每个基分类器组都由随机森林和支持向量机组成,并通过打伪标签的方式扩充有标签数据集进行循环训练至模型收敛,最终整合分类结果,充分发挥各学习器在不同特征上的分类优势,并在实验中验证该模型的有效性。  相似文献   

8.
分层狄利克雷过程(HDP)主题模型从数据中自动学习结构最优的主题集,但往往不满足实际语义要求,而现有的一些带标签的主题模型又需要设定很难界定的参数.因此,文中在已知部分语义标签和标签确定度的基础上,分别提出半监督HDP主题模型(SLHDP)和随机簇的准确度评价指标.该模型为已知的语义标签赋予较高权重,结合狄利克雷过程有限空间无线划分的特性,并通过中国餐馆过程建模生成.在多个中英文数据集中的实验表明,在大规模数据集的文本分类中,SLHDP模型能够使主题集的构成更合理.  相似文献   

9.
在多标签分类任务中随着标签数量的增多,传统的基于隐含狄利克雷分布模型的方法往往会遇到可扩展性问题。为解决这一问题,提出一种基于划分子集的带标签隐含狄利克雷模型。通过对数据划分子集降低算法的时间复杂度,在标签规模达到成百上千时灵活扩展模型,提高传统带标签狄利克雷模型的预测准确率。该方法被部署于大规模实验数据集上,与多个经典方法进行比对,实验结果表明,该方法具有良好的准确率和效率,是解决多标签学习问题的有效工具。  相似文献   

10.
层次标签文本分类是自然语言处理领域中一项具有挑战性的任务,每个文档需要被正确分类到对应具有层次结构的多个标签中。然而在标签集中,由于标签包含的语义信息不充分,同时被归类到深层次标签的文档数量过少,深层次标签训练不充分,导致显著的标签训练不平衡问题。基于此,提出了深层次标签辅助分类任务的层次标签文本分类方法(DLAC)。该方法提出了一种深层次标签辅助分类器,在标签语义增强的基础上有效利用文本特征与深层次标签对应的父标签结点(即浅层次标签的丰富特征)来提升深层次标签的分类性能。与11种算法在三个数据集上的对比实验结果表明,模型能够有效提升深层次标签的分类性能,并取得良好效果。  相似文献   

11.
为了解决目前所提出的多标签分类算法仍然存在分类精度低和计算复杂度高的问题,提出了一种基于质心的多标签引力模型(ML-GM)。在训练阶段,通过计算文档与类的质心之间的相似性来获得相似性区间。在测试阶段,通过比较未定义文档和类质心之间的相似性是否在相似性区间内来进行多标签分类。该模型通过引入质心分类器和引力模型(GM)解决了计算复杂度高、分类精度低的问题。在实验中使用了雅虎数据集,结果表明,ML-GM在平均精确度、AUC、1-错误率和汉明损失上都有优越性。  相似文献   

12.
基于K-Means的文本层次聚类算法研究   总被引:6,自引:0,他引:6  
尉景辉  何丕廉  孙越恒 《计算机应用》2005,25(10):2323-2324
提出了一种基于K-Means的文本层次聚类算法。它结合凝聚层次聚类和K Means算法的特点,减少凝聚层次法在凝聚过程中的错误,提高了聚类质量。实验结果表明,该算法的聚类质量优于层次聚类法。  相似文献   

13.
传统两阶段层次文本分类模型(THTC模型)是一种解决大规模层次文本分类问题的有效方法,但该模型的分类准确率仍然不是很高。为了缓解这个问题,提出了结合邻居辅助策略的两阶段层次文本分类模型(THTC-NA模型)。THTC-NA模型由搜索阶段和分类阶段组成。搜索阶段采用扁平策略从所有的叶子类别中选择与待分类文档最相关的[k]个类别作为候选类别集,这样可以大大减小分类阶段的搜索空间。分类阶段通过结合候选类别的祖先类别和兄弟类别的分类结果来帮助计算候选类别在分类阶段的结果。最后将搜索阶段的结果和分类阶段的结果融合起来共同决定待分类文档的目标类别。在数据集Newsgroups-18828上的实验表明,相对于THTC模型,THTC-NA模型对提高层次文本分类准确率有很大的帮助。  相似文献   

14.
提出一种融合相似度图和随机游走模型的多标签短文本分类算法.首先,以样本数据和标签为节点创建相似度图,借助外部知识库计算样本与标签之间的权重,得到预测样本与标签集合之间的匹配度.然后,将多标签数据映射成多标签依赖图,在图上进行重启随机游走,并将已获得的匹配度作为初始预测值,计算每个节点的概率分布,直到概率分布趋于稳定时,...  相似文献   

15.
目前许多多标签文本分类方法主要关注文档表示,而丢失了大量标签相关的语义信息,导致分类效果不理想。针对以上问题,提出一种基于标签推理和注意力融合的分类方法,挖掘文档中与标签相关的特征以及相似标签之间的相关性,学习标签信息进行标签推理,同时采用注意力机制自学习地融合文档表示和标签表示,最终完成多标签分类任务。在AAPD和RCV1-V2数据集上进行实例验证,该方法的F1值分别达到了0.732和0.887,与其他最新方法相比其准确度均有提升,实验结果证明了标签推理和注意力融合策略的有效性。  相似文献   

16.
社团是社会网络的一个重要特征,社团发现是近年来研究的热点问题之一。通过在复杂网络上传递信号,获得各节点对网络的影响向量,从而把网络中节点的拓扑性质转化为代数空间上向量的几何关系,然后用结合模块度的层次聚类挖掘社会网络中的社团结构。该算法优点是不需要预先知道社团的数量或社团内节点的数量,用Zachary空手道俱乐部网络、大学足球赛网络以及海豚关系网络的数据进行验证,该算法划分的社团准确性超过了Newman的结论。  相似文献   

17.
一种基于图的层次多标记文本分类方法   总被引:1,自引:0,他引:1  
由于一个类别在层次树上可能存在多个镜像,基于层次树来进行分类可能会导致不一致性。一种自然的解决方法是采用图结构来描述类别关系,在现实生活中人们实际的描述方式也是如此。鉴于此,提出了一种直接基于图的层次多标记分类方法,称为GraphHMLTC。该方法利用有向无圈图的拓扑排序而非树的自顶向下的层次关系来确定类别之间的分类顺序,并且该拓扑序根据分类情形进行动态维护。实验表明,采用层次图分类的GraphHMLTC方法比非层次分类方法的代表之一BoosTexter.MH在较大程度上改善了分类精度。该工作体现了基于层  相似文献   

18.
王敏蕊  高曙  袁自勇  袁蕾 《计算机应用》2020,40(7):1884-1890
现实世界中,多标签文本比单标签文本具有更广泛的应用场景,但其输出空间的庞大给分类任务带来了更多的挑战。将多标签文本分类问题看作标签序列生成问题,把序列生成模型(SGM)应用于多标签文本分类领域,并针对该模型的顺序结构容易产生累积误差等不足,构建了基于动态路由(DR)的序列生成模型(DR-SGM)。该模型基于Encoder-Decoder模式:Encoder层中使用双向长短期记忆(Bi-LSTM)神经网络+Attention进行语义信息编码;Decoder层设计了一种基于动态路由的解码器结构,该结构在隐含层后添加了动态路由聚合层,利用路由参数的全局共享减弱了累积误差产生的影响。同时,动态路由能捕获文本中部分-部分、部分-整体的位置信息,并且通过优化动态路由算法进一步提高了语义聚合效果。将DR-SGM应用于多标签文本分类,实验结果表明,在RCV1-V2、AAPD和Slashdot数据集上,多标签文本分类效果得到了有效的提升。  相似文献   

19.
探地雷达(GPR)图像双曲波提取是分析地下目标位置和结构的重要方法,但在真 实环境中,由于噪声和杂波的干扰,使得提取出的双曲波存在结构不完整、碎片化和形状异 常等问题,不利于数据分析和三维建模等后续操作。为此,提出了一种基于多标签层次聚类 的双曲波提取方法(MHCE)。首先通过信息熵评价像素邻域的稳定性,构造了基于信息熵的 距离度量来进行层次聚类;然后利用聚类后的邻接空间进行多标签聚类以降低杂波和噪声对 双曲波提取的影响;最后结合多标签聚类结果的拟合形状和纹理方向提取双曲波。实验表明, 该方法对于真实GPR 图像双曲波具有较好的鲁棒性,能够获得规范化的双曲波形状和位置 参数。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号