期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

赵海燕曹杰陈庆奎曹健《小型微型计算机系统》2022,(4):673-683

现实世界的大量应用,比如文档归类、网页分类、专利分类等,其类别信息(标签)是一个具有层次关系的体系,对它们进行自动分类涉及到在此层次标签体系中选择多个正确的标签,因此形成了一类层次多标签文本分类问题.如何学习和利用这些不同层级的关系、并对分类结果从层级关系遵循性的角度进行评价成为层次多标签分类问题的难点和挑战.本文对层... 相似文献

2.

基于标签语义注意力的多标签文本分类

肖琳陈博理黄鑫刘华锋景丽萍于剑《软件学报》2020,31(4):1079-1089

自大数据蓬勃发展以来,多标签分类一直是令人关注的重要问题,在现实生活中有许多实际应用,如文本分类、图像识别、视频注释、多媒体信息检索等.传统的多标签文本分类算法将标签视为没有语义信息的符号,然而,在许多情况下,文本的标签是具有特定语义的,标签的语义信息和文档的内容信息是有对应关系的,为了建立两者之间的联系并加以利用,提出了一种基于标签语义注意力的多标签文本分类(LAbel Semantic Attention Multi-label Classification,简称LASA)方法,依赖于文档的文本和对应的标签,在文档和标签之间共享单词表示.对于文档嵌入,使用双向长短时记忆(bi-directional long short-term memory,简称Bi-LSTM)获取每个单词的隐表示,通过使用标签语义注意力机制获得文档中每个单词的权重,从而考虑到每个单词对当前标签的重要性.另外,标签在语义空间里往往是相互关联的,使用标签的语义信息同时也考虑了标签的相关性.在标准多标签文本分类的数据集上得到的实验结果表明,所提出的方法能够有效地捕获重要的单词,并且其性能优于当前先进的多标签文本分类... 相似文献

3.

多标签文本分类研究进展

下载免费PDF全文

郝超裘杭萍孙毅张超然《计算机工程与应用》2021,57(10):48-56

文本分类作为自然语言处理中一个基本任务,在20世纪50年代就已经对其算法进行了研究,现在单标签文本分类算法已经趋向成熟,但是对于多标签文本分类的研究还有很大的提升空间.介绍了多标签文本分类的基本概念以及基本流程,包括数据集获取、文本预处理、模型训练和预测结果.介绍了多标签文本分类的方法.这些方法主要分为两大类:传统机器... 相似文献

4.

基于序列生成的多标签文本分类算法研究

黄立星咸儆醒《现代计算机》2022,(20):42-46

本文针对词粒度注意力的缺点,通过借鉴HAN层次化注意力机制的思想,提出将层次化注意力机制运用于编码器层中,进而得到句子粒度的隐藏层状态信息;在此基础上,解码器层基于句子粒度的隐藏层状态信息进行注意力操作;采用辅助向量的方法避免了序列生成过程存在的重复标签生成问题。最后通过引入开源数据集进行了有效性验证。相似文献

5.

基于层级图标签表示网络的多标签文本分类

徐江玲陈兴荣《计算机应用研究》2024,41(2)

多标签文本分类是一项基础而实用的任务,其目的是为文本分配多个可能的标签。近年来,人们提出了许多基于深度学习的标签关联模型,以结合标签的信息来学习文本的语义表示,取得了良好的分类性能。通过改进标签关联的建模和文本语义表示来推进这一研究方向。一方面,构建的层级图标签表示,除了学习每个标签的局部语义外,还进一步研究多个标签共享的全局语义。另一方面,为了捕捉标签和文本内容间的联系并加以利用,使用标签文本注意机制来引导文本特征的学习过程。在三个多标签基准数据集上的实验表明,该模型与其他方法相比具有更好的分类性能。相似文献

6.

基于标签语义相似的动态多标签文本分类算法

下载免费PDF全文

姚佳奇徐正国燕继坤熊钢李智翔《计算机工程与应用》2020,56(19):94-98

针对标签随着时间变化的动态多标签文本分类问题,提出了一种基于标签语义相似的动态多标签文本分类算法。该算法在训练阶段,首先按照标签固定训练得到一个基于卷积神经网络的多标签文本分类器,然后以该分类器的倒数第二层的输出为文本的特征向量。由于该特征向量是在有标签训练得到的,因而相对于基于字符串即文本内容而言,该特征向量含有标签语义信息。在测试阶段,将测试文档输入训练阶段的多标签文本分类器获取相应的特征向量,然后计算相似性,同时乘以时间衰减因子修正,使得时间越近的文本具有较高的相似性。最后,采用最近邻算法分类。实验结果表明,该算法在处理动态多标签文本分类问题上具有较优的性能。相似文献

7.

基于半监督协同训练的多标签文本分类模型

高军陈见飞杨世军王耀坤狄广义《信息与电脑》2023,(22):170-174

为降低数据标注的成本并提高投诉文本分类的准确率,本文提出基于半监督协同训练的多标签文本分类模型。该模型通过构建多个基分类器组的方式进行训练,其中每个基分类器组都由随机森林和支持向量机组成,并通过打伪标签的方式扩充有标签数据集进行循环训练至模型收敛,最终整合分类结果,充分发挥各学习器在不同特征上的分类优势,并在实验中验证该模型的有效性。相似文献

8.

基于标签的半监督HDP文本分类主题模型

李永忠郑滔《模式识别与人工智能》2017,30(12):1138-1148

分层狄利克雷过程(HDP)主题模型从数据中自动学习结构最优的主题集,但往往不满足实际语义要求,而现有的一些带标签的主题模型又需要设定很难界定的参数.因此,文中在已知部分语义标签和标签确定度的基础上,分别提出半监督HDP主题模型(SLHDP)和随机簇的准确度评价指标.该模型为已知的语义标签赋予较高权重,结合狄利克雷过程有限空间无线划分的特性,并通过中国餐馆过程建模生成.在多个中英文数据集中的实验表明,在大规模数据集的文本分类中,SLHDP模型能够使主题集的构成更合理. 相似文献

9.

基于划分子集主题模型的多标签极限分类

杨菊英刘燚罗佳《计算机工程与设计》2020,41(12):3432-3437

在多标签分类任务中随着标签数量的增多,传统的基于隐含狄利克雷分布模型的方法往往会遇到可扩展性问题。为解决这一问题,提出一种基于划分子集的带标签隐含狄利克雷模型。通过对数据划分子集降低算法的时间复杂度,在标签规模达到成百上千时灵活扩展模型,提高传统带标签狄利克雷模型的预测准确率。该方法被部署于大规模实验数据集上,与多个经典方法进行比对,实验结果表明,该方法具有良好的准确率和效率,是解决多标签学习问题的有效工具。相似文献

10.

深层次标签辅助分类任务的层次标签文本分类方法

曹渝昆魏子越唐艺嘉金成坤李云峰《计算机工程与应用》2024,(10):105-112

层次标签文本分类是自然语言处理领域中一项具有挑战性的任务,每个文档需要被正确分类到对应具有层次结构的多个标签中。然而在标签集中,由于标签包含的语义信息不充分,同时被归类到深层次标签的文档数量过少,深层次标签训练不充分,导致显著的标签训练不平衡问题。基于此,提出了深层次标签辅助分类任务的层次标签文本分类方法（DLAC）。该方法提出了一种深层次标签辅助分类器,在标签语义增强的基础上有效利用文本特征与深层次标签对应的父标签结点（即浅层次标签的丰富特征）来提升深层次标签的分类性能。与11种算法在三个数据集上的对比实验结果表明,模型能够有效提升深层次标签的分类性能,并取得良好效果。相似文献

11.

一种基于质心的多标签文本分类模型研究

李校林王成《计算机工程与科学》2020,42(6):1120-1126

为了解决目前所提出的多标签分类算法仍然存在分类精度低和计算复杂度高的问题,提出了一种基于质心的多标签引力模型(ML-GM)。在训练阶段,通过计算文档与类的质心之间的相似性来获得相似性区间。在测试阶段,通过比较未定义文档和类质心之间的相似性是否在相似性区间内来进行多标签分类。该模型通过引入质心分类器和引力模型(GM)解决了计算复杂度高、分类精度低的问题。在实验中使用了雅虎数据集,结果表明,ML-GM在平均精确度、AUC、1-错误率和汉明损失上都有优越性。相似文献

12.

基于K-Means的文本层次聚类算法研究 总被引：6，自引：0，他引：6

尉景辉何丕廉孙越恒《计算机应用》2005,25(10):2323-2324

提出了一种基于K-Means的文本层次聚类算法。它结合凝聚层次聚类和K Means算法的特点,减少凝聚层次法在凝聚过程中的错误,提高了聚类质量。实验结果表明,该算法的聚类质量优于层次聚类法。相似文献

13.

结合邻居辅助策略的两阶段层次文本分类模型

古平王春元《计算机工程与应用》2017,53(9):97-102

传统两阶段层次文本分类模型（THTC模型）是一种解决大规模层次文本分类问题的有效方法,但该模型的分类准确率仍然不是很高。为了缓解这个问题,提出了结合邻居辅助策略的两阶段层次文本分类模型（THTC-NA模型）。THTC-NA模型由搜索阶段和分类阶段组成。搜索阶段采用扁平策略从所有的叶子类别中选择与待分类文档最相关的[k]个类别作为候选类别集,这样可以大大减小分类阶段的搜索空间。分类阶段通过结合候选类别的祖先类别和兄弟类别的分类结果来帮助计算候选类别在分类阶段的结果。最后将搜索阶段的结果和分类阶段的结果融合起来共同决定待分类文档的目标类别。在数据集Newsgroups-18828上的实验表明,相对于THTC模型,THTC-NA模型对提高层次文本分类准确率有很大的帮助。相似文献

14.

融合相似度图和随机游走模型的多标签短文本分类算法

李晓红王闪闪马堉银马慧芳《计算机工程与科学》2021,43(6):1081-1087

提出一种融合相似度图和随机游走模型的多标签短文本分类算法.首先,以样本数据和标签为节点创建相似度图,借助外部知识库计算样本与标签之间的权重,得到预测样本与标签集合之间的匹配度.然后,将多标签数据映射成多标签依赖图,在图上进行重启随机游走,并将已获得的匹配度作为初始预测值,计算每个节点的概率分布,直到概率分布趋于稳定时,... 相似文献

15.

基于标签推理和注意力融合的多标签文本分类方法

田雨薇张智《计算机应用研究》2022,39(11)

目前许多多标签文本分类方法主要关注文档表示,而丢失了大量标签相关的语义信息,导致分类效果不理想。针对以上问题,提出一种基于标签推理和注意力融合的分类方法,挖掘文档中与标签相关的特征以及相似标签之间的相关性,学习标签信息进行标签推理,同时采用注意力机制自学习地融合文档表示和标签表示,最终完成多标签分类任务。在AAPD和RCV1-V2数据集上进行实例验证,该方法的F1值分别达到了0.732和0.887,与其他最新方法相比其准确度均有提升,实验结果证明了标签推理和注意力融合策略的有效性。相似文献

16.

基于信号传递与层次聚类的社团发现算法

下载免费PDF全文

黄浩英马英红《计算机工程与应用》2010,46(9):51-54

社团是社会网络的一个重要特征,社团发现是近年来研究的热点问题之一。通过在复杂网络上传递信号,获得各节点对网络的影响向量,从而把网络中节点的拓扑性质转化为代数空间上向量的几何关系,然后用结合模块度的层次聚类挖掘社会网络中的社团结构。该算法优点是不需要预先知道社团的数量或社团内节点的数量,用Zachary空手道俱乐部网络、大学足球赛网络以及海豚关系网络的数据进行验证,该算法划分的社团准确性超过了Newman的结论。相似文献

17.

一种基于图的层次多标记文本分类方法 总被引：1，自引：0，他引：1

罗俊《计算机应用研究》2010,27(3):909-912

由于一个类别在层次树上可能存在多个镜像,基于层次树来进行分类可能会导致不一致性。一种自然的解决方法是采用图结构来描述类别关系,在现实生活中人们实际的描述方式也是如此。鉴于此,提出了一种直接基于图的层次多标记分类方法,称为GraphHMLTC。该方法利用有向无圈图的拓扑排序而非树的自顶向下的层次关系来确定类别之间的分类顺序,并且该拓扑序根据分类情形进行动态维护。实验表明,采用层次图分类的GraphHMLTC方法比非层次分类方法的代表之一BoosTexter.MH在较大程度上改善了分类精度。该工作体现了基于层相似文献

18.

基于动态路由序列生成模型的多标签文本分类方法

王敏蕊高曙袁自勇袁蕾《计算机应用》2020,40(7):1884-1890

现实世界中,多标签文本比单标签文本具有更广泛的应用场景,但其输出空间的庞大给分类任务带来了更多的挑战。将多标签文本分类问题看作标签序列生成问题,把序列生成模型（SGM）应用于多标签文本分类领域,并针对该模型的顺序结构容易产生累积误差等不足,构建了基于动态路由（DR）的序列生成模型（DR-SGM）。该模型基于Encoder-Decoder模式：Encoder层中使用双向长短期记忆（Bi-LSTM）神经网络+Attention进行语义信息编码;Decoder层设计了一种基于动态路由的解码器结构,该结构在隐含层后添加了动态路由聚合层,利用路由参数的全局共享减弱了累积误差产生的影响。同时,动态路由能捕获文本中部分-部分、部分-整体的位置信息,并且通过优化动态路由算法进一步提高了语义聚合效果。将DR-SGM应用于多标签文本分类,实验结果表明,在RCV1-V2、AAPD和Slashdot数据集上,多标签文本分类效果得到了有效的提升。相似文献

19.

基于多标签层次聚类的GPR 图像双曲波提取方法

下载免费PDF全文

李文生原达苗翠王冬雨《图学学报》2020,41(3):399

探地雷达(GPR)图像双曲波提取是分析地下目标位置和结构的重要方法,但在真实环境中,由于噪声和杂波的干扰,使得提取出的双曲波存在结构不完整、碎片化和形状异常等问题,不利于数据分析和三维建模等后续操作。为此,提出了一种基于多标签层次聚类的双曲波提取方法(MHCE)。首先通过信息熵评价像素邻域的稳定性,构造了基于信息熵的距离度量来进行层次聚类;然后利用聚类后的邻接空间进行多标签聚类以降低杂波和噪声对双曲波提取的影响;最后结合多标签聚类结果的拟合形状和纹理方向提取双曲波。实验表明, 该方法对于真实GPR 图像双曲波具有较好的鲁棒性,能够获得规范化的双曲波形状和位置参数。相似文献