首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 640 毫秒
1.
句子相似度计算是自然语言处理领域的关键问题,计算句子相似度的方法也有很多。本文针对基于多特征句子相似度计算模型对计算句子相似度结果偏低这一问题进行研究,在词语语义的基础上增加相似词计算,同时增加句子成分关系相似度计算方法,该改进方法既避免了增加额外同义词词典的操作,又充分考虑句子的词形、句长、词序、语义、成分关系等多特征信息,提高了句子相似度的计算结果。实验结果表明,该方法对句子相似度计算有一定的提高,且该方法合理、简便、可行。  相似文献   

2.
无论是在专利申请前还是在侵权诉讼中,专利侵权检测都能起到重要的作用,帮助企业或个人有效规避侵权和第三方侵权的风险。针对中文专利侵权检测中关键词特征表达能力弱以及句子结构特征容易引起噪声干扰的问题,提出了一种通过抽取三元组特征来改进中文专利侵权检测的方法,该方法将专利权利要求书抽取为三元组特征的集合,并结合词向量和HowNet计算三元组特征间的语义相似度,从而有效提高对疑似侵权专利的识别能力。实验结果表明,该方法取得了较好的检测效果,且在准确率上要高于其他方法。  相似文献   

3.
句子相似度的计算在自然语言处理的各个领域占有很重要的地位,一些传统的计算方法只考虑句子的词形、句长、词序等表面信息,并没有考虑句子更深层次的语义信息,另一些考虑句子语义的方法在实用性上的表现不太理想。在空间向量模型的基础上提出了一种同时考虑句子结构和语义信息的关系向量模型,这种模型考虑了组成句子的关键词之间的搭配关系和关键词的同义信息,这些信息反应了句子的局部结构成分以及各局部之间的关联关系,因此更能体现句子的结构和语义信息。以关系向量模型为核心,提出了基于关系向量模型的句子相似度计算方法。同时将该算法应用到网络热点新闻自动摘要生成算法中,排除文摘中意思相近的句子从而避免文摘的冗余。实验结果表明,在考虑网络新闻中的句子相似度时,与考虑词序与语义的算法相比,关系向量模型算法不但提高了句子相似度计算的准确率,计算的时间复杂度也得到了降低。  相似文献   

4.
针对汉语语句表意灵活复杂多变的特点,提出一种基于语义与情感的句子相似度计算方法,从表意层面计算句子相似度。该方法使用哈工大LTP平台对句子进行预处理,提取词语、词性、句法依存标记与语义角色标记,将语义角色标注结果作为句中语义独立成分赋予相似度权重系数,综合句法依存关系与词法关系计算两句相同标签语义独立成分相似度得到部分相似度,加权计算部分相似度得到句子整体相似度。另外,考虑到情感与句式因子,在整体相似度的基础上对满足条件的两句计算情感减益与句式减益。实验结果表明,该方法能有效提取出句子语义独立成分,从语义层面上计算句子相似度,解决了信息遗漏与句子组成成分不一致的问题,提高了句子相似度计算的准确率与鲁棒性。  相似文献   

5.
语义相似度计算旨在计算文本之间在语义层面的相似程度,是自然语言处理中一项重要的任务。针对现有的计算方法不能充分表示句子的语义特征的问题,提出基于Transformer编码器的语义特征抽取的模型TEAM,利用Transformer模型的上下文语义编码能力充分提取句子内的语义信息,对句子进行深层语义编码。此外,通过引入交互注意力机制,在编码两个句子时利用交互注意力机制提取两个句子之间关联的相似特征,使模型更擅长捕捉句子内部重要的语义信息,提高了模型对语义的理解和泛化能力。实验结果表明,该模型在英文和中文的语义相似度计算任务上能够提高结果的准确性,较已有方法表现出更好的效果。  相似文献   

6.
抽取式自动文摘研究抽取文档中最能代表文档核心内容的句子作为摘要,篇章主次关系分析则是从篇章结构方面分析出篇章的主要内容和次要内容,因此,篇章主次关系分析和抽取式自动文摘存在较大关联,篇章主次关系可指导摘要的抽取。该文提出了一种基于篇章主次关系的单文档抽取式摘要方法,该方法基于神经网络模型构建了一个篇章主次关系和文本摘要联合学习的模型。该模型在考虑词组、短语等语义信息的基础上同时考虑了篇章的主次关系等结构信息,最终基于篇章内容的整体优化抽取出最能代表文档核心内容的句子作为摘要。实验结果表明,与当前主流的单文档抽取式摘要方法相比,该方法在ROUGE评价指标上有显著提高。  相似文献   

7.
基于语义依存的汉语句子相似度计算   总被引:44,自引:0,他引:44  
句子间相似度的计算在自然语言处理的各个领域都占有很重要的地位,在多文档自动文摘技术中,句子间相似度的计算是一个关键的问题。由于汉语句子的表达形式是多种多样的,要准确地刻画一个句子所表达的意思,必须深入到语义一级并结合语法结构信息,由此提出了一种基于语义依存的汉语句子相似度计算的方法,该方法取得了令人满意的实验效果。  相似文献   

8.
针对现有句子语义相似度计算由于缺乏语义结构信息导致精度低的问题,该文在依存关系树的基础上,提出了一种基于多头注意力机制Tree-LSTM(multi-head attention Tree-LSTM,MA-Tree-LSTM)的句子语义相似度计算方法。首先,MA-Tree-LSTM将外部具有指导意义的特征作为输入,再将输入结合多头注意力机制作用在Tree-LSTM树节点的所有孩子节点上,为每个孩子节点赋予不同的权重值,从而实现多头注意力机制和Tree-LSTM的融合;其次,将三层的MA-Tree-LSTM应用于句子语义相似度计算并实现句子对的相互指导,从而得到句子对语义特征的多层表示;最后联合多层的语义特征建立句子对语义相似度计算模型,从而实现句子对间相关的语义结构特征的充分利用。该文提出的方法鲁棒性强,可解释性强,对句子单词的顺序不敏感,不需要特征工程。在SICK和STS数据集上的实验结果表明,基于MA-Tree-LSTM的句子语义相似度计算的精度优于非注意力机制的Tree-LSTM方法以及融合了多头注意力机制的BiLSTM方法。  相似文献   

9.
自动摘要是解决网络信息过载问题的关键技术之一.在对文本中旬子的特征和句子之间的语义距离分析的基础上,提出了一种基于句子特征和语义距离的自动文本摘要算法.首先计算文档中句子的各个特征权重,在此基础上决定句子的权重;然后,通过句子之间的语义距离计算,修改句子的权重,据此进行排序,权重大的作为文本的主题句;最后,对文摘句进行平滑处理,生成文字流畅的文本摘要.实验表明,该算法在不同的压缩率下生成的摘要接近于人工摘要,具有较好的性能.  相似文献   

10.
为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合方法对词语进行词义消歧,综合词的词性与词语所处的语境,再依据Hownet语义词典计算词语语义相似度;将句子中词语之间的语义相似度根据句子结构加权平均得到句子的语义相似度,最后通过一种新的方法——二元集合法——计算短文本的语义相似度。词语相似度与短文本相似度的准确率分别达到了87.63%和93.77%。实验结果表明,本文方法确实提高了短文本语义相似度的准确率。  相似文献   

11.
周凯  李芳 《计算机应用与软件》2009,26(6):231-232,255
针对事件摘要方法进行了深入研究,提出了一种基于句子特征与模糊推断的中文突发事件摘要实现机制。该机制综合考虑句子的特征重要性和与用户需求的内在相关性为单篇新闻生成摘要,在事件所有新闻摘要的句子上进行聚类、排序、抽取并最终生成事件的多主题摘要。在中文突发事件语料库上进行了实验,结果证明该机制能够有效地为中文突发事件生成摘要。  相似文献   

12.
提出了一种基于特征信息提取的中文自动文摘方法。通过对文章中可能影响文摘句提取质量的若干特征进行分析,设计了一种基于特征信息提取的句子重要度计算方法,并依此来抽取文摘句以生成摘要。实验结果验证了该方法的有效性,是对中文自动文摘方法中利用文章特征信息来抽取文摘句的一种有益的尝试。  相似文献   

13.
针对抽取式方法、生成式方法在长文档摘要上的流畅性、准确性缺陷以及在文档编码前截断原始文档造成的重要信息缺失问题,提出一种两阶段长文档摘要模型SFExt-PGAbs,由次模函数抽取式摘要SFExt与指针生成器生成式摘要PGAbs组成。SFExt-PGAbs模拟人类对长文档进行摘要的过程,首先使用SFExt在长文档中抽取出重要句子,过滤不重要且冗余的句子形成过渡文档,然后PGAbs接收过渡文档作为输入以生成流畅且准确的摘要。为获取与原始文档中心思想更为接近的过渡文档,在传统SFExt中拓展出位置重要性、准确性两个子方面,同时设计新的贪心算法。为研究不同特征提取器对生成摘要质量的影响,在PGAbs中应用两种循环神经网络。实验结果显示,在CNNDM测试集上,SFExt-PGAbs相较于基线模型生成了更为流畅、准确的摘要,ROUGE指标有较大提升。同时,子方面拓展后的SFExt也能抽取得到更准确的摘要。  相似文献   

14.
文章描述了一种基于子主题划分和查询相结合的多文档自动摘要系统的设计:首先利用同义词词林计算句子语义相似度,通过对句子的聚类得到子主题,然后根据用户的查询对子主题进行重要度排序,在此基础上,采用一种动态的句子打分策略从各个主题中抽取句子生成摘要。实验结果表明生成的摘要冗余少,信息全面。  相似文献   

15.
卢玲  杨武  曹琼 《计算机应用》2016,36(2):432-436
传统自动文摘一般对字数没有明确限制,运用传统技术进行短文摘提取时,受字数限制,难以获取均衡的性能。针对该问题,提出一种多重映射的自动短文摘方法。通过计算关联度映射值、长度映射值、标题映射值和位置映射值,分别形成多个候选文摘句子集;再运用多重映射策略,将多个候选子集映射到文摘句子集中,同时使用提取文本中心句的方法提高召回率。实验表明,多重映射可在短文摘提取上获得稳定的性能。在NLP&CC2015评测中,该方法的ROUGE-1测试F值达到0.49,ROUGE-2测试F值达到0.35,均优于评测的平均水平,表明了该方法的有效性。  相似文献   

16.
肖升  何炎祥 《计算机应用研究》2012,29(12):4507-4511
中文摘录是一种实现中文自动文摘的便捷方法,它根据摘录规则选取若干个原文句子直接组成摘要。通过优化输入矩阵和关键句子选取算法,提出了一种改进的潜在语义分析中文摘录方法。该方法首先基于向量空间模型构建多值输入矩阵;然后对输入矩阵进行潜在语义分析,并由此得出句子与潜在概念(主题信息的抽象表达)的语义相关度;最后借助改进的优选算法完成关键句子选取。实验结果显示,该方法准确率、召回率和F度量值的平均值分别为75.9%、71.8%和73.8%,与已有同类方法相比,改进后的方法实现了全程无监督且在整体效率上有较大提升,更具应用潜质。  相似文献   

17.
一种主题句发现的中文自动文摘研究   总被引:1,自引:0,他引:1       下载免费PDF全文
王萌  李春贵  唐培和  王晓荣 《计算机工程》2007,33(8):180-181,189
提出了一种基于主题句发现的中文自动文摘方法。该方法使用术语代替传统的词语作为最小语义单位,采用术语长度术语频率方法进行术语权重计算,获得特征词。利用一种改进的k-means聚类算法进行句子聚类,根据聚类结果进行主题句发现。实验表明,该算法所得到的文摘,在各项指标上优于传统的文摘。  相似文献   

18.
Graph model has been widely applied in document summarization by using sentence as the graph node, and the similarity between sentences as the edge. In this paper, a novel graph model for document summarization is presented, that not only sentences relevance but also phrases relevance information included in sentences are utilized. In a word, we construct a phrase-sentence two-layer graph structure model (PSG) to summarize document(s). We use this model for generic document summarization and query-focused summarization. The experimental results show that our model greatly outperforms existing work.  相似文献   

19.
自动文本摘要是继信息检索之后信息或知识获取的一个重要步骤,对高质量的文档文摘十分重要。该文提出以句子为基本抽取单位,以位置和标题关键词为句子的加权特征,对句子基于潜语义聚类,提出语义结构的摘要方法。同时给出了较为客观和有效的摘要评价方法。实验表明了该方法的有效性。  相似文献   

20.
.基于用户查询扩展的自动摘要技术*   总被引:1,自引:0,他引:1  
提出了一种新的文档自动摘要方法,利用非负矩阵分解算法将原始文档表示为若干语义特征向量的线性组合,通过相似性计算来确定与用户查询高度相关的语义特征向量,抽取在该向量上具有较大投影系数的句子作为摘要,在此过程中,多次采用相关反馈技术对用户查询进行扩展优化。实验表明,该方法所得摘要在突出文档主题的同时,体现了用户的需求和兴趣,有效改善了信息检索的效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号