首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
句子对齐能够为跨语言的自然语言处理任务提供高质量的对齐句子对。受对齐句子对通常包含大量对齐的单词对这种直觉的启发,该文通过探索神经网络框架下词对间的语义相互作用来解决句子对齐问题。特别地,该文提出的词对关联网络通过融合三种相似性度量方法从不同角度来捕获词对之间的语义关系,并进一步融合它们之间的语义关系来确定两个句子是否对齐。在单调和非单调文本上的实验结果表明,该文提出的方法显著提高了句子对齐的性能。  相似文献   

2.
田星  郑瑾  张祖平 《计算机科学》2018,45(7):186-189
通过对传统Jaccard算法的研究和改进,提出了一种基于词向量的Jaccard句子相似度算法。传统的Jaccard算法以句子的字面量为特征,因而在语义层面的相似度计算方面受到了一定的限制。而随着深度学习的兴起,尤其是词向量的提出,词语在计算机中的表示有了突破性的进展。该算法首先通过训练将每个词语映射为语义层面的高维向量,然后计算各个词向量之间的相似度,高于阈值α的作为共现部分,最终计算句子的相似度。实验表明,相较于传统的Jaccard算法,该算法在短文本相似度计算的准确率上有较明显的提升。  相似文献   

3.
机器翻译质量估计是自然语言处理中的一个重要任务,与传统的机器翻译自动评价方法不同,译文质量估计方法评估机器译文的质量不使用人工参考译文.针对目前句子级别机器译文质量估计特征提取严重依赖语言学分析导致泛化能力不足,并且制约着后续支持向量回归算法的性能,提出了利用深度学习中上下文单词预测模型和矩阵分解模型提取句子向量特征,并将其与递归神经网络语言模型特征相结合来提高译文质量自动估计与人工评价的相关性.在WMT’15和WMT’16译文质量估计子任务数据集上的实验结果表明:利用上下文单词预测模型提取句子向量特征的方法性能统计一致地优于传统的QuEst方法和连续空间语言模型句子向量特征提取方法,这揭示了提出的特征提取方法不仅不需要语言学分析,而且显著地提高了译文质量估计的效果.  相似文献   

4.
在归纳常见的句子相似度计算方法后,基于《人民日报》3.4万余份文本训练了用于语义相似度计算的词向量模型,并设计了一种融合词向量的多特征句子相似度计算方法。该方法在词方面,考虑了句子中重叠的词数和词的连续性,并运用词向量模型测量了非重叠词间的相似性;在结构方面,考虑了句子中重叠词的语序和两个句子的长度一致性。实验部分设计实现了4种句子相似度计算方法,并开发了相应的实验系统。结果表明:提出的算法能够取得相对较好的实验结果,对句子中词的语义特征和句子结构特征进行组合处理和优化,能够提升句子相似度计算的准确性。  相似文献   

5.
句子排序是多文档自动摘要和答案融合任务的关键技术,其效果直接影响摘要或者答案融合结果的可读性。作为句子排序的重要依据,语义逻辑关系的准确度对于排序结果的可读性有很大影响。为此,该文提出了引入注意力机制的句子排序模型,以增强句子语义逻辑关系的捕获能力,进而获取句子的合理排序。实验结果表明,在句子排序任务中,引入注意力机制的句子排序模型明显优于基线方法。  相似文献   

6.
文本分类是目前深度学习方法被广泛应用的重要领域之一.本文设计了一种基于循环神经网络和胶囊网络的混合模型,使用胶囊网络来克服卷积神经网络对空间不敏感的缺点,学习文本局部与整体之间的关系特征,并使用循环神经网络中的GRU神经网络经过最大池化层来学习上下文显著信息特征,结合两者来优化特征提取过程从而提高文本分类效果.与此同时,在嵌入层中提出了一种基于缺失词补全的混合词向量方法,采用两种策略来减少缺失词过度匹配的现象以及降低词向量中的噪声数据出现的概率,从而获得语义丰富且少噪声的高质量词向量.在经典文本分类数据集中进行实验,通过与对比模型的最优方法进行比较,证明了该模型和方法能有效地提升文本分类准确度.  相似文献   

7.
随着互联网的快速发展,网络中充斥着海量主观性文本,如何对这些主观性语句进行情感倾向性判断是文本情感分析的关键。本文提出一种基于词向量和句法树的中文句子情感分析方法。针对目前大量网络新词的使用所带来的问题,以已有标注的情感词典为基础,采用词向量的方法判断词语之间的语义相似度,从而得到未知词语的情感极性。针对情感极性转移现象,定义相应的情感判断规则。在此基础上,利用句子的句法树结构,对句子进行情感倾向性分析。实验证明,该方法在一定程度上解决了网络新词的问题,有效提高了句子情感分析的准确率和召回率,且具有领域适用性。  相似文献   

8.
实体链接任务主要包括命名实体识别、查询扩展、候选实体选择、特征抽取和排序。本文针对查询词的扩展,提出了一种基于词向量的扩展方法。该方法利用连续词袋(Continuous bag-of-words,CBOW)模型训练语料中词语的词向量,然后将距离查询词近的词作为扩展词。词向量从语料中挖掘出词与词之间的语义相关性是对基于规则的查询扩展方法的补充,以此来召回候选实体。在特征抽取时,把文档之间的潜在狄利克雷分布(Latent Dirichlet allocation, LDA)的主题相似性作为特征之一。在计算文档相似性时,不再以高频词作为向量的维度,而是以基于词向量的相关词作为向量维度,由此得到文档的语义相似性特征 。最后利用基于单文档方法的排序学习模型把查询词链接到相应的候选实体。实验结果表明利用该方法能使F1值达到0.71,具有较好的效果。  相似文献   

9.
句子相似度的计算在自然语言处理的各个领域占有很重要的地位,一些传统的计算方法只考虑句子的词形、句长、词序等表面信息,并没有考虑句子更深层次的语义信息,另一些考虑句子语义的方法在实用性上的表现不太理想。在空间向量模型的基础上提出了一种同时考虑句子结构和语义信息的关系向量模型,这种模型考虑了组成句子的关键词之间的搭配关系和关键词的同义信息,这些信息反应了句子的局部结构成分以及各局部之间的关联关系,因此更能体现句子的结构和语义信息。以关系向量模型为核心,提出了基于关系向量模型的句子相似度计算方法。同时将该算法应用到网络热点新闻自动摘要生成算法中,排除文摘中意思相近的句子从而避免文摘的冗余。实验结果表明,在考虑网络新闻中的句子相似度时,与考虑词序与语义的算法相比,关系向量模型算法不但提高了句子相似度计算的准确率,计算的时间复杂度也得到了降低。  相似文献   

10.
句子融合是为多个句子生成言简意赅、符合语法的句子,可应用到自动摘要、复述生成等自然语言处理任务。目前句子融合方法已取得一定成效,但还存在重要信息缺失、语义偏离原句等问题。该文提出基于Transformer和重要词识别的方法来缓解上述问题。该方法包括两个模块,(1)重要词识别模块:利用序列标注模型识别原句重要词;(2)句子融合模块:将重要词与原句输入到Transformer框架并利用BERT进行语义表示,然后在全连接层引入基于原句和词表获得的向量作为先验知识进行句子融合。基于NLPCC2017摘要任务集构建句子融合数据集,并进行相关实验,结果表明所提方法的性能明显优于基线系统。  相似文献   

11.
句子排序是多文本摘要中的重要问题,合理地对句子进行排序对于摘要的可读性和连贯性具有重要意义。该文首先利用神经网络模型融合了五种前人已经提出过的标准来决定任意两个句子之间的连接强度,这五种标准分别是时间、概率、主题相似性、预设以及继承。其次,该文提出了一种基于马尔科夫随机游走模型的句子排序方法,该方法利用所有句子之间的连接强度共同决定句子的最终排序。最终,该文同时使用人工和半自动方法对句子排序的质量进行评价,实验结果表明该文所提出方法的句子排序质量与基准算法相比具有明显提高。
  相似文献   

12.
议论文自动生成是自然语言生成中一项极具挑战性的任务,与诗歌、故事等生成任务不同,所生成的文章需要句子语义明确、论证结构清晰并合理地表达出核心论点。上述特点使得现有的预训练模型难以准确地建模并自动生成,因此传统的检索式方法成为解决该问题的主要方式。但前人方法在句子检索和排序过程中只考虑了语义相关度,忽视了对逻辑论证关系的判别,导致语义不连贯、论证逻辑倒置等问题。针对上述问题,该文将自然语言推理应用于论证关系逻辑判别任务,提出了基于显式语义结构的论证关系逻辑判别方法,新模型在论证判别数据集上取得优于以往自然语言推理模型的效果。同时将论文判别结果作为显式特征应用于议论文句子排序模型,在议论文生成数据集中有效改善了排序模型的逻辑不一致问题并进一步提升了议论文生成系统的总体性能。  相似文献   

13.
句子是语言的最小使用单位,句类识别是为了进一步细化句法和句义研究。由于藏文句尾通常没有特殊的标点符号来识别不同句类,因此这一藏文语言特性就变成了一大难题。该文提出了基于语境和功能特征为一体的句子用途分类方案。首先,该文介绍了文法中藏文句子分类及其特征。其次,收集了大量藏文句子并对其进行了人工标注。最后,采用循环卷积神经网络对藏文句类进行了自动识别。实验表明,该模型对藏文句类识别有较为显著的效果。  相似文献   

14.
随机冲浪模型;顺序关系;主题相关性;句子重排  相似文献   

15.
为解决传统生成式模型在生成摘要的过程中会忽略关键词信息为摘要提供的重要线索,导致关键词信息的丢失,生成的摘要不能很好地契合原文信息,文章提出了一种以指针生成网络为骨架融合BERT预训练模型和关键词信息的摘要生成方法.首先,结合TextRank算法与基于注意力机制的序列模型进行关键词的提取,使得生成的关键词能够包含更多的原文信息.其次,将关键词注意力加入到指针生成网络的注意力机制里,引导摘要的生成.此外,我们使用双指针拷贝机制来替代指针生成网络的拷贝机制,提高拷贝机制的覆盖率.在LCSTS数据集上的结果表明,所设计的模型能够包含更多的关键信息,提高了摘要生成的准确性和可读性.  相似文献   

16.
针对现有的句向量学习方法不能很好的学习关系知识信息、表示复杂的语义关系,提出了基于PV-DM模型和关系信息模型的关系信息句向量模型(RISV),该模型是将PV-DM模型作为句向量训练基本模型,然后为其添加关系信息知识约束条件,使改进后模型能够学习到文本中词语之间的关系,并将关系约束模型(RCM)模型作为预训练模型,使其进一步整合语义关系约束信息,最后在文档分类和短文本语义相似度两个任务中验证了RISV模型的有效性。实验结果表明,采用RISV模型学习的句向量能够更好地表示文本。  相似文献   

17.
时延测试向量排序是降低测试功耗的有效技术。提出了基于马尔可夫决策模型的时延测试向量排序新方法。对时延测试向量进行重排序,利用基于转换频度的诱导开关方程和海明距离来定义测试向量序列的转移概率,根据转移概率决定测试向量的顺序,降低测试电路的开关翻转频率,以达到降低峰值功耗和平均功耗的目的。给出了完整的算法TVO-MDP并进行算法最优性和复杂性分析。实验结果证实了本方法的有效性。  相似文献   

18.
宏观篇章结构解析旨在通过分析篇章的整体结构,为理解篇章的内容和主旨奠定基础。现有的研究大都采用了单一的自顶向下或自底向上的构建策略逐级地构建结构树,而单向构建策略无法根据不同待解析序列选择合适的解析动作,在解析流程中容易陷入决策局限性并将错误向后传播。该文提出一种集成自顶向下和自底向上两种构建策略的指针网络模型,该模型能同时利用两种构建策略的语义信息,从而选择合适的构建方式。在汉语宏观篇章树库(MCDTB 2.0)上的实验表明,通过集成两种构建方式,该文模型能有效提升篇章单元间的局部语义交互能力并减少构建过程中的错误传播,从而取得性能最优值。  相似文献   

19.
目前大部分研究指针式仪表识别的方法中提取指针是完全基于传统的图像处理技术,提取过程较为复杂且步骤繁多.为了有效解决指针式仪表读数识别中指针中轴线所在直线提取困难及识别精度不高等问题,本文提出了一种基于深度学习的指针式仪表的识别方法.首先用Faster R-CNN算法检测仪表圆盘,再采用基于深度学习的方法Faster R...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号