排序方式: 共有146条查询结果,搜索用时 78 毫秒
91.
语义蕴含识别旨在检测和判断两个语句的语义是否一致,以及是否存在蕴含关系.然而现有方法通常面临中文同义词、一词多义现象困扰和长文本难理解的挑战.针对上述问题,本文提出了一种基于Transformer和HowNet义原知识融合的双驱动中文语义蕴含识别方法,首先通过Transformer对中文语句内部结构语义信息进行多层次编码和数据驱动,并引入外部知识库HowNet进行知识驱动建模词汇之间的义原知识关联,然后利用soft-attention进行交互注意力计算并与义原矩阵实现知识融合,最后用BiLSTM进一步编码文本概念层语义信息并推理判别语义一致性和蕴含关系.本文所提出的方法通过引入HowNet义原知识手段解决多义词及同义词困扰,通过Transformer策略解决长文本挑战问题.在BQ、AFQMC、PAWSX等金融和多语义释义对数据集上的实验结果表明,与DSSM、MwAN、DRCN等轻量化模型以及ERNIE等预训练模型相比,该模型不仅可以有效提升中文语义蕴含识别的准确率(相比DSSM模型提升2.19%),控制模型的参数量(16 M),还能适应50字及以上的长文本蕴含识别场景. 相似文献
92.
为了探索从外部词典提取的实体词语义信息在中文实体关系抽取上的作用,提出了《知网》语义树和《同义词词林》编码树两种新特征。并连同已有的最短路径依存树、《知网》第一基本义原、《同义词词林》编码、实体大类和实体小类特征一起探究了其对抽取性能的影响。实验数据表明,作为单一特征时,本文提出的两种新特征性能虽然不如实体大类和实体小类特征,但是比最短路径依存树、《知网》第一基本义原、《同义词词林》编码好;作为组合特征时,最短路径依存树和两种新特征的组合特征取得了最好的性能。由此可以得出结论,从非语料中获取的最短路径依存树、《知网》语义树和《同义词词林》编码树特征可以代替从语料中获取的实体大类和实体小类特征,可以用于下一步开放域的关系抽取。 相似文献
93.
《吉林化工学院学报》2012,30(7)
词语之间相似度的计算通常有基于统计和基于世界知识2种方法.中文词语相似度的计算,可以通过计算义原的相似度进而计算词语的相似度,在此基础之上深入分析《知网》的义原层次体系,提出了一种将义原在层次体系树上的深度和区域密度2个因素添加到义原相似度计算中的方法.通过实验发现,考虑义原在层次体系树上的深度和区域密度得到的结果比不考虑这2个因素得到结果更符合实际. 相似文献
94.
95.
基于《知网》的中文信息结构抽取研究 总被引:2,自引:0,他引:2
文章提出了一种在真实文本中抽取中文信息结构的方法—利用大规模基于语义依存关系的语料库对《知网》的中文信息结构模式进行训练,用这些带概率的模式作为规则建立部分依存分析器,从而从真实文本中最大限度地抽取符合知网中文信息结构定义的短语。该研究除了对将要建立的基于语义依存关系的语言模型是个有益的补充外,对于文本理解、对话系统甚至语音合成中的重音预测、韵律建模等等方面都有十分广阔的应用前景。 相似文献
96.
博客是Web环境中个人表达观点和情感的一种重要载体,一般涉及较宽泛的话题,蕴含丰富的舆情信息。现有针对有关社会事件的用户产生内容进行情感分析的研究多数以篇章级为处理粒度,尚不能满足博客文本深度情感分析的需求。该文提出一种基于LDA话题模型与Hownet词典的中文博客多方面话题情感分析方法。该方法首先利用数据语料训练LDA话题模型,然后以滑动窗口为基本处理单位,利用训练好的LDA模型对博客文本进行话题识别与划分;在此基础上,基于Hownet词典对划分后的话题段落进行情感倾向计算。该方法有助于同时识别博客文本所涉及的多方面子话题及每个子话题上的情感倾向。实验结果表明,该方法不仅能获得较好的话题划分结果,也有助于改善情感分析的准确率。 相似文献
97.
针对中文消费评价的情感分类问题,构造基于词典语义概念和上下文语义相结合的情感分类方法,对情感进行分类。该方法首先构造提取不同领域基准词集的方法。然后利用一元语言模型,通过HowNet计算情感相似值,进行情感词提取。最后结合HowNet方法和Google相似距离方法构造一种情感分类算法,对句子进行情感倾向性分类,既考虑词语本身含义,又考虑词语在上下文中的含义。通过对书籍、电脑和酒店的评价进行实验,F值较高,同时与其他方法进行对比实验,体现文中算法的有效性。 相似文献
98.
利用《知网》计算词语的语义相似度,通过提取关键词进行文本相似度计算.将文本分词并过滤停用词后,结合词语的词性、词频和段频计算词语的权值,以便提取文本的关键词,通过计算关键词之间的相似度来计算文本之间的相似度值.实验结果与对比值进行差异显著性分析表明,本文提出的方法相比传统的语义算法和向量空间模型算法,其精确性有了进一步的提高. 相似文献
99.
基于知网的中文结构排歧工具——VXY 总被引:1,自引:1,他引:0
该文介绍了基于知网的中文结构排歧工具系列中的一种 — VXY。VXY采取了一种独到的排歧技术,对于语言难点采取“定点清除”的策略。它用来解决“V+N+的+N”类型的结构性歧义。VXY是一个自足的、可以现场考核检验的并可以真正付诸实用的系统,而不是仅仅某种方法论的表演或举例性的“游戏”。该文简要地介绍了VXY的组成部分,说明了它的意义计算的原理。同时,该文就如何更有效地利用知网进行结构和语义排歧,如何开辟不同于当前语言信息处理中的“三部曲”(语料标注、现成的计算、应试性的评测)的语言技术等问题进行讨论。 相似文献
100.