首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
复述(Paraphrase)句的识别可看作文本蕴含(Text Entailment)识别的一个子问题,传统的解决方法是通过词频或句法上的相似度来判断。即使用相同的文字书写的句子其含义也可能差别很大,而相同句法结构也不能保证意义一致。该文根据新闻语料的特点,提出了一种通过引入深层的语义角色标注来帮助识别新闻领域复述句的方法。该方法通过在语义角色这种结构化的含义表达形式中提取的特征来弥补传统方法的不足 先识别待判断的两个句子中所有谓词的语义角色,然后计算两个句子间对应语义角色的相似度,最后结合传统的句子相似度计算方法来进行相似性计算。实验证明,该文提出的方法能有效地提高复述语句的识别效果。  相似文献   

2.
问句复述识别任务旨在判断两个自然问句的语义是否等价。问句的语义理解与交互是解决该任务的关键因素。现有工作通常基于问句的语义级编码,通过融合或交互的方式,抽取问句的浅层语义特征,以此支持复述问句之间的语义计算。但是如果能找到两个问句的相同点和不同点,就可以基于这些信息得到更为准确的判断结果。基于此想法,该文提出了语义正交化匹配方法,将语义正交化引入到问句复述识别任务中。通过语义正交化方法将每个问句拆分为与另一个问句的相似表示和差异表示,这不仅丰富了问句的语义表示,而且实现了问句的多粒度特征语义融合。该文在中文数据集LCQMC和英文数据集Quora上进行实验,证明了语义正交化匹配方法在问句复述识别任务中的有效性。  相似文献   

3.
语义相似度计算旨在计算文本之间在语义层面的相似程度,是自然语言处理中一项重要的任务。针对现有的计算方法不能充分表示句子的语义特征的问题,提出基于Transformer编码器的语义特征抽取的模型TEAM,利用Transformer模型的上下文语义编码能力充分提取句子内的语义信息,对句子进行深层语义编码。此外,通过引入交互注意力机制,在编码两个句子时利用交互注意力机制提取两个句子之间关联的相似特征,使模型更擅长捕捉句子内部重要的语义信息,提高了模型对语义的理解和泛化能力。实验结果表明,该模型在英文和中文的语义相似度计算任务上能够提高结果的准确性,较已有方法表现出更好的效果。  相似文献   

4.
中文旅游问题匹配的目标是发现两个相似的问题,然而,在自然语言字面表达中存在多样性,且一个旅游问题通常又包括多个方面信息。因此,采用单一的相似度计算方法将导致信息获取不够完整、有用信息丢失、问题匹配不准确等问题。该文探讨利用答案作为辅助信息,通过多种句子相似度函数,抽取问题中不同方面的信息,生成不同的句子相似度向量表示,以增强句子间的关系。在此基础上,设计一个GRU融合层,使不同方面的信息进行融合,构建一个融合多种句子相似度函数的注意力网络的相似旅游问题识别模型。在旅游问答数据集的实验表明,该文方法提升了相似旅游问题识别任务的性能。  相似文献   

5.
基于框架语义分析的汉语句子相似度计算   总被引:4,自引:0,他引:4  
句子相似度计算在自然语言处理的许多领域中发挥着重要作用.已有的汉语句子相似度计算方法由于考虑句子的语义不全面,使得相似度计算结果不够准确,为此提出一种新的汉语句子相似度计算方法.该方法基于汉语框架网语义资源,通过多框架语义分析、框架的重要度度量、框架的相似匹配、框架间相似度计算等关键步骤来实现句子语义的相似度量.其中多框架语义分析是从框架角度对句子中的所有目标词进行识别、框架选择及框架元素标注,从而达到全面刻画句子语义的目的;在此基础上根据句子中框架的语义覆盖范围对不同框架的重要度进行区分,能够使得相似度结果更准确.在包含多目标词的句子集上的实验结果显示,基于多框架语义分析的句子相似度计算方法相对传统方法获得了更好的测试结果.  相似文献   

6.
该文采用基于短文本隐含空间语义特征改进文本蕴涵识别,该方法通过构造句子的隐含变量模型,并融合基于该模型的句子之间相似度特征,和词汇重叠度、N元语法重叠度、余弦相似度等字符串特征,以及带标记和未标记的子树重叠度句法特征一起利用SVM进行分类。基于该分类算法,我们对RTE-8任务进行了测试,实验表明短文本的隐含语义特征可有效改进文本蕴涵关系识别。
  相似文献   

7.
专有名词识别是中文信息处理领域的一个难题。句子相似度计算方法在中文信息处理领域有着广泛的应用。本文探索性地使用句子相似度计算方法来解决专有名词识别问题,并针对专有名词识别的研究背景对小句相似度计算方法做了一些改进,改进的计算方法不仅考虑了公共字符,而且还加入了语义信息和结构信息。实验证明该方法是可行的。  相似文献   

8.
问句复述识别旨在识别两个自然问句是否语义一致。目前,基于表示学习和深度神经网络架构的复述识别技术已取得较好效果。但是,这类方法往往面临复杂度较高且训练难度较大的瓶颈。针对这一问题,该文提出一种快速的多卷积自交互匹配方法。该方法融合了多种句子特征和词义特征,并由此形成分布式表示。在此基础上,这一方法利用卷积神经网络获取短语级的句子向量表示,并利用自交互融合技术将词级与短语级的向量表示进行充分融合,借以获得多粒度句子向量表示。该文将这一方法应用于判定自然语句是否互为复述的二元分类任务中,利用Quora标准问句复述识别语料进行测试。实验结果证明,在不引入外部数据的情况下,该文所提方法与基于双向多视角匹配的基准模型具有可比的性能,但在空间复杂度上具有较高的优越性,并且获得更快训练速度。具体地,该方法训练所需的物理显存比基准模型方法下降80%,训练迭代速度快19倍。  相似文献   

9.
跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。近年来,前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息,缺少对句子中远距离单词之间语义相关信息的获取。该文提出一种融合门控卷积神经网络和自注意力机制的神经网络结构,用于获取跨语言文本句子中的局部和全局语义相关关系,从而得到文本的综合语义表示。在SemEval-2017多个数据集上的实验结果表明,该文提出的模型能够从多个方面捕捉句子间的语义相似性,结果优于基准方法中基于纯神经网络的模型方法。  相似文献   

10.
针对跨领域少样本关系分类任务,该文提出分段注意力匹配网络PAMN。基于句子相似度计算的少样本学习算法有较好的领域适应性,PAMN在句子相似度算法上进行改进,针对关系抽取问题,将句子分段进行匹配,能更准确地计算关系分类实例间的相似度。PAMN由编码层和句子匹配层组成。在编码层,PAMN使用预训练模型BERT对句子对进行编码,根据实体位置将句子分为三段,通过动态段长进行段长领域自适应。在句子匹配层,PAMN使用基于分段注意力机制的文本匹配方法计算查询实例与支持集合中实例的相似度,取均值作为查询实例与该支持集合的相似度。实验结果显示,PAMN在FewRel 2.0领域适应任务中取得了目前该测评榜单上的最好效果。  相似文献   

11.
句子语义相似度的研究在自然语言处理等领域发挥着重要的作用。针对现有汉语句子相似度研究中存在的语义特征难以分析以及语序影响的问题,提出了一种基于DTW和匈牙利算法相结合的语义句子相似度处理模型。模型首先使用Word2vec深度学习模型训练百度新闻语料,得到200维的包含语义特征的词向量词典,并建立词向量空间,根据词向量组成的多维空间曲线,通过计算句子曲线之间相互转换的距离和复杂度来表示句子语义相似度,模型采用了DTW矩阵和改进的匈牙利算法,并对DTW矩阵做最短路径规划。实验结果表明,与现有的夹角余弦相似度等句子相似度计算方法相比,该方法在语序较乱但语义相近的情况下也能得到较为准确的相似度结果值。  相似文献   

12.
用户意图识别是基于用户对话用语识别用户的真实对话意图,是人机对话研究中的一项关键任务。针对现有用户意图识别方法的不足,提出融合敏感词规则和字符级RCNN模型的用户意图识别方法。构建敏感句子与敏感词词典,并通过规则及相似度匹配策略对特征明显的对话进行意图识别。针对类别特征不明显的对话提出深层语义分类模型,该模型以单字符串作为输入序列,利用RCNN模型构建意图分类框架,既可以避免分词结果不准确带来的错误传导问题,同时利用字符的分布向量表示方法还可以获取句子的深层语义信息。实验结果表明,该方法在两个数据集上都取得了较好的结果,明显优于传统的意图识别方法。  相似文献   

13.
智能客服利用人工智能技术准确回答用户的咨询问题, 良好的句子相似度算法可以提高智能客服中问答的准确度.本文针对金融证券领域客服, 提出了基于多特征融合的句子相似度算法模型, 提高了客服的智能性. 通过矩阵拼接的方式, 融合用户提问语句和知识库语句的词形特征和语义特征, 其中词形特征考虑N-gram相似度、编辑距离、Jaccard相似度三种词形信息, 并针对语义特征提取, 提出了基于多头注意力机制(multi-head attention)的神经网络模型LBMA. 利用上述融合的特征, 运用机器学习分类器判断两个语句是否相似, 并将分类器分类结果作为多特征融合模型的计算结果. 在尽量不改变语义信息的前提下, 通过数据增强(Data Augmentation, DA)技术扩充数据集, 提升了模型泛化能力. 实验结果表明, 与已有方法相比, 该模型在智能客服数据集上能够有效提升相似度计算的准确性, 准确率达到94.69%.  相似文献   

14.
句子融合是为多个句子生成言简意赅、符合语法的句子,可应用到自动摘要、复述生成等自然语言处理任务。目前句子融合方法已取得一定成效,但还存在重要信息缺失、语义偏离原句等问题。该文提出基于Transformer和重要词识别的方法来缓解上述问题。该方法包括两个模块,(1)重要词识别模块:利用序列标注模型识别原句重要词;(2)句子融合模块:将重要词与原句输入到Transformer框架并利用BERT进行语义表示,然后在全连接层引入基于原句和词表获得的向量作为先验知识进行句子融合。基于NLPCC2017摘要任务集构建句子融合数据集,并进行相关实验,结果表明所提方法的性能明显优于基线系统。  相似文献   

15.
汉语框架网的低覆盖率导致汉语句子中存在许多未登录的词元,严重制约着汉语的框架语义分析任务。针对未登录词元的框架识别问题,该文借助同义词词林的词义信息,提出基于平均语义相似度计算及最大熵模型两种方法,采用静态特征与动态特征相结合的特征选择方法。实验证明,这两种方法都能有效地实现未登录词元的框架选择,基于相似度计算的方法(TOP-4)获得78.61%的准确率;基于最大熵的方法结果可达87.29%,同时在新闻语料上达到了75%的准确率。  相似文献   

16.
篇章分析是自然语言处理领域的一个重要任务。分析篇章主次关系有助于理解篇章的结构和语义,并为自然语言处理的应用提供有力的支持。该文在微观篇章主次关系识别研究的基础上,重点研究宏观篇章主次关系,提出了一种基于word2vec和LDA的主题相似度的宏观篇章主次关系识别模型。基于word2vec的主题相似度和基于LDA的主题相似度在不同维度上计算语义相似度,两者在语义层面形成互补,因而增强了模型识别宏观篇章主次关系的能力。该模型在宏观汉语篇章树库(MCDTB)上实验的F1值达到79.9%,正确率达到81.82%,相较基准系统分别提升了1.7%和1.81%。  相似文献   

17.
句子语义相似度计算   总被引:1,自引:0,他引:1       下载免费PDF全文
句子或文本片段相似度计算在与Web相关的任务中起着越来越重要的作用。在基于概念之间的语义相似度基础之上,提出一种句子语义相似度的计算方法SSBS并进行了相关的实验。与其他方法相比,SSBS方法在特征的量化过程中不仅考虑两个句子的概念对之间的语义相似度和字符串编辑距离,还考虑了不同词性的概念对句子相似度的影响。  相似文献   

18.
文本复述判别是一个重要的句子级语义理解应用。该文提出了一个轻量级的基于记忆单元的单层循环神经网络模型,并结合语义角色标注知识帮助进行英文文本复述判别。使用单层的循环网络模型减缓由于网络层数过多加重的梯度消失和梯度爆炸问题,易于训练;并且利用外部记忆单元和语义角色知识帮助存储两句话中不同层级的语义联系。该文模型在英文评测语料Microsoft Research Paraphrase Corpus测试集上F值为84.3%。实验表明,语义角色标注知识确实可以帮助文本复述判别,并且轻量级模型达到了与同类多层次网络模型相近的效果。  相似文献   

19.
针对现有句子语义相似度计算由于缺乏语义结构信息导致精度低的问题,该文在依存关系树的基础上,提出了一种基于多头注意力机制Tree-LSTM(multi-head attention Tree-LSTM,MA-Tree-LSTM)的句子语义相似度计算方法。首先,MA-Tree-LSTM将外部具有指导意义的特征作为输入,再将输入结合多头注意力机制作用在Tree-LSTM树节点的所有孩子节点上,为每个孩子节点赋予不同的权重值,从而实现多头注意力机制和Tree-LSTM的融合;其次,将三层的MA-Tree-LSTM应用于句子语义相似度计算并实现句子对的相互指导,从而得到句子对语义特征的多层表示;最后联合多层的语义特征建立句子对语义相似度计算模型,从而实现句子对间相关的语义结构特征的充分利用。该文提出的方法鲁棒性强,可解释性强,对句子单词的顺序不敏感,不需要特征工程。在SICK和STS数据集上的实验结果表明,基于MA-Tree-LSTM的句子语义相似度计算的精度优于非注意力机制的Tree-LSTM方法以及融合了多头注意力机制的BiLSTM方法。  相似文献   

20.
组合原则表明句子的语义由其构成成分的语义按照一定规则组合而成,由此基于句法结构的语义组合计算一直是一个重要的探索方向,其中采用树结构的组合计算方法最具有代表性。但是该方法难以应用于大规模数据处理,主要问题是其语义组合的顺序依赖于具体树的结构,无法实现并行处理。该文提出一种基于图的依存句法分析和语义组合计算的联合框架,并借助复述识别任务训练语义组合模型和句法分析模型。一方面,图模型可以在训练和预测阶段采用并行处理,极大地缩短计算时间;另一方面,联合句法分析的语义组合框架不必依赖外部句法分析器,同时两个任务的联合学习可使语义表示同时学习句法结构和语义的上下文信息。我们在公开汉语复述识别数据集LCQMC上进行评测,实验结果显示准确率接近树结构组合方法,达到79.54%,预测速度最高可提升30倍以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号