首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
2.
提出了一种基于双向长短期记忆网络和标签嵌入的文本分类模型。首先利用BERT模型提取句子特征,然后通过BiLSTM和注意力机制得到融合重要上、下文信息的文本表示,最后将标签和词在联合空间学习,利用标签与词之间的兼容性得分对标签和句子表示加权,实现标签信息的双重嵌入,分类器根据给定标签信息对句子进行分类。在5个权威数据集上的实验表明,该方法能有效地提高文本分类性能,具有更好的实用性。  相似文献   

3.
针对多标签文本分类任务中如何有效地提取文本特征和获取标签之间潜在的相关性问题,提出一种CNN(convolutional neural networks)结合Bi-LSTM (bi-directional long short-term memory)的模型.首先,通过CNN网络和最大池化提取文本的特征;然后,利用训练的Labeled-LDA(labeled latent dirichlet allocation)模型获取所有词与标签之间的词-标签概率信息;接着,使用Bi-LSTM网络和CNN网络提取当前预测文本中每个词的词-标签信息特征;最后,结合提取的文本特征,预测与当前文本相关联的标签集.实验结果表明,使用词-标签概率获取文本中词与标签之间的相关性信息,能够有效提升模型的F1值.  相似文献   

4.
层级标签文本分类旨在从具有层级结构的标签集中选择与文本最匹配的标签。现有的文本分类方法,通常使用编码器提取文本特征进行预测,他们忽视了标签语义、标签之间的相关性、文本特征对标签特征的影响。针对以上问题,提出了融合标签结构的层级标签文本分类模型(Label Hierarchical and Semantic Structure Learning,LHSSL)。LHSSL充分利用了标签语义结构与层级结构信息,通过共享参数的图卷积神经网络学习两种结构的相似特征。然后将标签特征与文本特征动态连接,构造标签模拟分布作为soft target。与不考虑标签信息直接使用LSTM、Bert和添加标签平滑后的LSTM、Bert相比,该模型在四个数据集上的准确率都有了一定的提升。  相似文献   

5.
多标签文本分类任务存在难以从文本信息中提取标签关联的判别特征,建立标签相关性困难等问题。现有方法主要采用基于RNN的序列生成模型来建立标签高阶相关性,但缺乏对文本语义信息的充分利用。为此文章提出基于Transformer解码器的序列生成模型,使用标签嵌入作为查询,通过其多头自注意力机制建立标签之间的高阶相关性,并利用多头交叉注意力子层从文本信息中自适应地聚合标签相关的关键特征。文章的注意力权重可视化实验表明,序列生成Transformer在建立标签相关性的同时,能够更全面、更深层次地考虑文本和标签之间的语义相关性。与传统RNN类模型相比,序列生成Transformer在分类任务中兼具有效性和可解释性,并在AAPD和SLASHDOT两个数据集上取得了更优的结果。在AAPD数据集上分别取得了70.49%的Instance-F1值和52.04%的Label-F1值,比以往分类效果最好的set-RNN模型分别高1.44%和1.83%。  相似文献   

6.
针对当前文本分类算法未能充分利用标签的语义表示导致文本表示学习与分类预测割裂的问题,提出一种融合文本内容编码和标签引导文本编码的文本分类方法.在文本内容编码部分,通过长短时记忆网络获得文本序列累计语义表示,通过自注意力机制捕获和强化文本长距离语义依赖.在标签引导文本编码部分,设计交互注意力机制,通过标签引导得到经由标签...  相似文献   

7.
8.
多标签文本分类是自然语言处理领域的重要任务之一.文本的标签语义信息与文本的文档内容有紧密的联系,而传统的多标签文本分类方法存在忽略标签的语义信息以及标签的语义信息不足等问题.针对以上问题,提出一种融合标签嵌入和知识感知的多标签文本分类方法 LEKA (Label Embedding and Knowledge-Aware).该方法依赖于文档文本以及相应的多个标签,通过标签嵌入来获取与标签相关的注意力.考虑标签的语义信息,建立标签与文档内容的联系,将标签应用到文本分类中.另外,为了增强标签的语义信息,通过知识图谱嵌入引入外部感知知识,对标签文本进行语义扩展.在AAPD和RCV1-V2公开数据集上与其他分类模型进行了对比,实验结果表明,与LCFA (Label Combination and Fusion of Attentions)模型相比,LEKA的F1分别提高了3.5%和2.1%.  相似文献   

9.
在层次多标签分类问题中,一个样本同时被赋予多个类别标签,并且这些类别标签被组织成一定的层次结构。层次多标签分类问题的主要挑战在于:①分类方法的输出必须符合标签的层次结构约束;②层次深的节点所代表的标签往往只有很少的样本与之相关,造成标签不平衡的问题。提出一种用于层次多标签分类问题的增量式超网络学习方法(hierarchical multi-label classification using incremental hypernetwork, HMC-IMLHN),通过将超网络的超边组织成相应的层次结构,使输出的预测标签能够满足标签的层次约束。此外,超网络学习方法可以利用标签之间的关联减少标签不平衡问题对分类性能的影响。实验结果表明,与其他层次多标签分类方法相比,提出的增量式超网络方法能够取得较好的分类准确性。  相似文献   

10.
将粗糙集优越的约简理论应用于多标签文本分类,提出了基于粗糙集理论的多标签文本分类算法,该算法利用训练阶段得到的各个类别的分类规则与测试实例逐一匹配,得出实例的类标签集合,扩展了粗糙集理论在文本分类中的应用,实验证明算法有效可行.  相似文献   

11.
基于Web的新闻文本分类技术的研究   总被引:1,自引:0,他引:1  
从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基于KNN算法的分类系统具有较好的分类效果.  相似文献   

12.
采用生存分析方法,对中国2006年-2019年中央级别的科技创新政策生存时间进行量化处理,基于现有文献研究构建"政策工具—政策目标"的二维政策分析框架,并结合生存函数图表探究各个维度及其二级视角下科技创新政策稳定性的相关情况.研究发现,中国科技创新政策在混合型政策工具层面的生存情况较好、强制性政策工具稳定性较差、自愿性...  相似文献   

13.
在文本分类中,文本特征向量通常高达几千甚至上万维,给整个分类过程带来了相当庞大的计算量,因此进行有效的降维处理是非常重要的.在不完备信息系统理论的基础上,结合文本分类的特点,提出了一种量化容差关系和启发式的属性约简算法.实验证明该属性约简算法不仅能有效地降低文本特征向量的维度,同时能保证分类的正确率.  相似文献   

14.
在文本分类中,文本特征向量通常高达几千甚至上万维,给整个分类过程带来了相当庞大的计算量,因此进行有效的降维处理是非常重要的。在不完备信息系统理论的基础上,结合文本分类的特点,提出了一种量化容差关系和启发式的属性约简算法。实验证明该属性约简算法不仅能有效地降低文本特征向量的维度,同时能保证分类的正确率。  相似文献   

15.
为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法 .该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%.  相似文献   

16.
为了解决文本图神经网络小样本文本分类精度较差的问题,设计了基于文本图神经网络的原型网络,采用预训练语言模型,利用文本级图神经网络为每个输入文本构建图并共享全局参数,将文本图神经网络的结果作为原型网络的输入,对未标注文本进行分类,并验证新模型在多个文本分类数据集上的有效性。实验结果表明,与需要大量标注文档的监督学习方法相比,所采用的方法未标注文本的分类精度提高了1%~3%,在多个文本分类数据集上验证了新模型性能先进,内存占用更少。研究结果可为解决小样本文本分类问题提供参考。  相似文献   

17.
针对传统Web文本分类方法无法解决大规模分类问题,在深入分析当前主流并行计算平台Hadoop的基础上,提出基于Hadoop的Web文本分类系统,该系统主要包括文本预处理、向量表示、文本分类、结果评价等模块.真实数据集上的比较实验表明所建系统的有效性.  相似文献   

18.
论我国科技政策研究的路径重构   总被引:3,自引:0,他引:3  
在讨论科技政策研究渊源及价值的基础上,分析了我国科技政策研究的基本情况,总结了我国科技政策研究领域目前存在的诸多问题,如科技政策研究的深度问题,科技政策研究的本土化问题,科技政策研究的队伍和专业化问题等;并提出了科技政策研究重构的几个路径。  相似文献   

19.
随着万维网的快速普及和发展,Web上出现了大量短文本,如科技文献摘要、微博和电子邮件等.短文本内容短小,相互联系,已标注数据获得困难,导致传统分类方法很难取得较高的分类精度.为了解决短文本分类问题,提出了一种基于半监督学习的迭代分类算法(SS-ICA).它使用较少的已标记数据,利用短文本间的关系进行迭代分类.通过与常用分类方法进行对比表明,在标注数据较少的情况下SS-ICA比其他分类器有更高的分类精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号