首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
提出一种基于同义词词林的句子语义相似度方法,借助同义词词林来计算句子的词形相似度,使用向量距离法得到句子间的词序相似度。同时,对句子进行语义依存句法分析。通过对词形、词序、语义依存相似度加权结合获得句子之间的最终相似度。将该方法应用于常问问题问答系统(Frequency Asked Questions, FAQ)的问句匹配。实验结果表明,该方法在问句匹配上相比传统方法具有更高的准确率。  相似文献   

2.
句子相似度计算是自然语言处理的重要研究内容。运用自然语言处理的概念层次网络(HNC)理论和依存句法理论提出一种句子相似度的计算方法。该方法认为句子的相似度是由词语的语义相似度和句法结构相似度共同决定的,利用HNC理论词汇层面联想的概念表述体系来计算词语之间的相似度,利用依存句法理论来获取句子中词语的词语搭配和构成特征,与现有典型的句子相似度算法和人工判断进行了比较。实验结果表明,该方法能够较好地反应句子之间的语义差别,是一种可行有效的方法。  相似文献   

3.
针对汉语语句表意灵活复杂多变的特点,提出一种基于语义与情感的句子相似度计算方法,从表意层面计算句子相似度。该方法使用哈工大LTP平台对句子进行预处理,提取词语、词性、句法依存标记与语义角色标记,将语义角色标注结果作为句中语义独立成分赋予相似度权重系数,综合句法依存关系与词法关系计算两句相同标签语义独立成分相似度得到部分相似度,加权计算部分相似度得到句子整体相似度。另外,考虑到情感与句式因子,在整体相似度的基础上对满足条件的两句计算情感减益与句式减益。实验结果表明,该方法能有效提取出句子语义独立成分,从语义层面上计算句子相似度,解决了信息遗漏与句子组成成分不一致的问题,提高了句子相似度计算的准确率与鲁棒性。  相似文献   

4.
王品  黄广君 《计算机工程》2011,37(12):38-40
为同时提高信息检索的查全率和查准率,提出一种基于语义依存度的句子相似度改进算法。在计算关键词相似度的基础上,研究基于语义依存相似度算法,在判定句子有效搭配对权重时加入语义角色标注信息,对算法进行加权,并用实例证明其可行性。在提高系统查全率的基础上,用改进算法对查询结果进行重排序,从而提高前K个返回结果的查准率。实验数据显示,重排序后的前20篇返回文档的查准率比系统排序前提高了3.6%。结果表明,该算法能有效提高系统查准率。  相似文献   

5.
根据汉语句子结构复杂、词语一词多义的特点,提出一种句子相似度计算方法。对句子进行句法分析和依存关系的预处理,提取句子结构中的主、谓、宾、介词等主要成分的词语集合,从而准确地表达出句子的浅层语义,并利用《知网》计算不同句子相同成分之间的语义相似度。考虑依存句法关系中的定中关系和状中关系起到的语义修饰作用,在句法结构基础上进一步融入修饰词,综合计算句子的语义相似度,区分句子主题内容的一致性和句子间的反义关系。以微软研究院释义语料库中抽取的30对句子作为测试集,实验结果表明,提出方法的皮尔森相关系数达到0.89,F值达到85.7%,具有较好的准确性与实用性。  相似文献   

6.
褒贬倾向性识别在信息过滤、自动文摘、文本分类等领域有良好的应用前景.针对褒贬倾向性较为集中的论坛网页,提出了基于特定论坛主题的网页文本褒贬倾向性计算方法.结合句法分析和词语相似度计算方法,提取反映主题倾向的特征词,根据每个信息块的倾向性计算页面的褒贬倾向,实现了论坛网页句子级别、信息块级别和网页级别等三个层次的褒贬倾向性计算,在部分语料范围内的实验结果良好,对于此类网页的分析评价有一定的意义.  相似文献   

7.
基于HowNet的句子褒贬倾向性研究   总被引:4,自引:2,他引:2  
文本倾向性识别在信息过滤、自动文摘、文本分类等领域有广泛的应用前景。句子倾向性研究是文本倾向性识别的基础,结合句法分析结果和词语语义倾向性可以衡量句子褒贬倾向性。以HowNet的词汇语义相似度计算为基础,提出了基于的语义距离和语法距离的句子褒贬倾向性计算方法。大量语句实验表明,该方法的计算结果与人工判别结果更接近。  相似文献   

8.
基于序列标注模型的分层式依存句法分析方法   总被引:2,自引:0,他引:2  
该文提出了一种全新的分层式依存句法分析方法。该方法以依存深度不大于1的依存层作为分析单位,自底向上构建句子的依存结构。在层内,通过穷尽搜索得到层最优子结构;在层与层之间,分析状态确定性地转移。依存层的引入,使该模型具有比典型的基于图的方法更低的算法复杂度,与基于转换的方法相比,又一定程度上缓解了确定性过程的贪婪性。此外,该方法使用典型序列标注模型进行层依存子结构搜索,证明了序列标注技术完全可以胜任句法分析等层次结构分析任务。实验结果显示,该文提出的分层式依存分析方法具有与主流方法可比的分析精度和非常高的分析效率,在宾州树库上可以达到每秒2 500个英语单词。  相似文献   

9.
基于改进编辑距离和依存文法的汉语句子相似度计算   总被引:3,自引:0,他引:3  
句子相似度计算在中文自然语言处理领域有着广泛的应用背景。要准确地刻画一个句子所表达的意思,必须深入到语义层面级并结合语法结构信息,提出了一种基于改进编辑距离和依存文法的汉语句子相似度计算方法。依存文法考虑到句子内部的结构和词语之间的相互作用关系,而编辑距离由于《同义词词林》的应用可以兼顾同义词之间的替换,因此该方法与其他方法相比,描述句子的信息更加全面,试验结果表明该方法是有效的。  相似文献   

10.
《计算机工程》2017,(8):219-224
为了在大量的新闻中快速找到自己感兴趣的内容,提出在单文档中基于加权TextRank算法提取主题句的方法,以得到新闻关键事件信息。通过计算新闻文本句子关键词的互信息值,对新闻报道进行事件句和非事件句的分类,过滤出非事件句。基于TextRank算法的思想,构建一个事件句有向图,引入句子位置、句子相似度和关键词覆盖频率3个影响因子,以此计算句子之间的影响权重,利用TextRank模型对图中的每个点计算权重,并选取排序最靠前的句子作为关键事件的主题句。实验结果表明,该方法的抽取效果优于基于词频-逆文档概率和新闻标题的主题句抽取方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号