首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
义类自动标注方法的研究   总被引:3,自引:1,他引:2  
句法分析不能满足汉语分析的需要,句法和语义相结合的分析方法适用于汉语分析。分析的基础要有一部语法语义词典。目前的机读词典多是语法词典,因而需要在语法词典中加入词的语义信息。《同义词词林》是一部较好的义类词典,但没有语法信息,可以《同义词词林》的分类体系对语法词典进行义类标注,得到语法语义词典。这一过程中有不一致的情况,特别地,对《同义词词林》中未收录的词就不能直接标注义类。本文采用《同义词词林》的分类体系,研究设计了一个汉语词自动义类标注算法,对北大《现代汉语语法信息词典》进行自动义类标注。实验结果较为满意,得到91%的准确率。  相似文献   

2.
该文提出了一种综合知网与同义词词林的词语语义相似度计算方法。知网部分根据义原层次结构的特征,采用了顶部平缓而底部陡峭的曲线单调递减的边权重策略,改进了现有的义原相似度算法;词林部分采用以词语距离为主要因素、分支节点数和分支间隔为微调节参数的方法,改进了现有的词林词语相似度算法。然后再根据词语的分布情况,采用综合考虑知网与同义词林的动态加权策略计算出最终的词语语义相似度。该方法充分利用了词语在知网与词林中的语义信息,极大地扩充了可计算词语的范围,同时也提高了词语相似度计算的准确率。  相似文献   

3.
为了探索从外部词典提取的实体词语义信息在中文实体关系抽取上的作用,提出了《知网》语义树和《同义词词林》编码树两种新特征。并连同已有的最短路径依存树、《知网》第一基本义原、《同义词词林》编码、实体大类和实体小类特征一起探究了其对抽取性能的影响。实验数据表明,作为单一特征时,本文提出的两种新特征性能虽然不如实体大类和实体小类特征,但是比最短路径依存树、《知网》第一基本义原、《同义词词林》编码好;作为组合特征时,最短路径依存树和两种新特征的组合特征取得了最好的性能。由此可以得出结论,从非语料中获取的最短路径依存树、《知网》语义树和《同义词词林》编码树特征可以代替从语料中获取的实体大类和实体小类特征,可以用于下一步开放域的关系抽取。  相似文献   

4.
一种改进的基于《知网》的词语相似度计算方法   总被引:5,自引:0,他引:5  
林丽  薛方  任仲晟 《计算机应用》2009,29(1):217-220
《知网》是一部比较详尽的中文语义知识词典,共用1618个义原描述词语,故相关的词语用《知网》的概念描述时,有相同的义原。通过这一规律,与当前的词语相似度计算方法结合,提出改进的方法计算相关词对的相似度。并引入弱义原的概念,排除弱义原对词语相似度计算的干扰。实验证明:该改进方法更符合人的直观,更适用于文本挖掘。  相似文献   

5.
在真实语言环境中,词语间的联系普遍存在、错综复杂。为了更好融合和使用各种语义资源库中的语义关系,构建可计算的汉语词汇语义资源,该文提出了通过构建语义关系图整合各种语义资源的方法,并在《知网》上实现。《知网》作为一个知识库系统,对各个词语义项是以分条记录的形式存储的,各种词汇语义关系隐含在词典文件和义原描述文件中。为提取《知网》中语义间的关系,本文首先将《知网》中的概念以概念树的形式重新表示,并从概念树中提取适当的语义关系,构建语义关系图。经过处理,得到88种589 984条语义关系,图上各种节点具有广泛的联系,为基于语义关系图的进一步分析和计算打下了基础。  相似文献   

6.
词汇语义信息对中文实体关系抽取影响的比较   总被引:1,自引:0,他引:1  
提出一种将《同义词词林》和《知网》的语义信息融合到基于树核函数的中文关系抽取方法,并比较和分析了两种语义信息对中文实体关系抽取的影响,同时探讨了这两种语义信息与实体类型信息之间的相互关系。实验结果表明,该方法能在一定程度上提高中文关系抽取的性能;同时,《同义词词林》能补充实体类型信息的不足,因而无论是否加入实体类型信息,其语义信息都能大幅度地提高大部分关系类型的抽取性能;而《知网》则和实体类型信息存在冲突,因此在已知实体类型信息的前提下,仅能提高个别关系类型的抽取性能。  相似文献   

7.
汉语词语语义相似度计算研究   总被引:12,自引:0,他引:12       下载免费PDF全文
夏天 《计算机工程》2007,33(6):191-194
汉语词语的语义相似度计算是中文信息处理中的一个关键问题。该文提出了一种基于知网、面向语义、可扩展的相似度计算新方法,该方法从信息论的角度出发,定义了知网义原间的相似度计算公式,通过对未登录词进行概念切分和语义自动生成,解决了未登录词无法参与语义计算的难题,实现了任意词语在语义层面上的相似度计算。针对同义词词林的实验结果表明,该方法的准确率比现有方法高出近15个百分点。  相似文献   

8.
《现代汉语语义分类词典》(TMC)研制中若干问题的思考   总被引:1,自引:0,他引:1  
《现代汉语语义分类词典》继承了《同义词词林》概念分类的传统,以反映一个社会的生活全貌及认识观念的概念关系为目的,收录了8万余条现代汉语通用性较高的语文词语,建构出了一个五级语义分类体系,里面包括9个一级类,62个二级类,518个三级类,2 076个四级类,12 613个五级类。所建构的义类关系,注重上位语义层对下位语义层有较强控制力,下位语义层对上位语义层的义域能全面覆盖,左右语义类具有互补对应的功能。  相似文献   

9.
该文提出了一种基于路径与深度的同义词词林词语语义相似度计算方法。该方法通过两个词语义项之间的最短路径以及它们的最近公共父结点在层次树中的深度计算出两个词语义项的相似度。在处理两个词语义项的最短路径与其最近公共父结点的深度时,为提高路径与深度计算的合理性,为分类树中不同层之间的边赋予不同的权值,同时通过两个义项在其最近公共父结点中的分支间距动态调节词语义项间的最短路径,从而平衡两个词语的相似度。该方法修正了目前相关算法只能得出几个固定的相似度值,所有最近公共父结点处于同一层次的义项对之间的相似度都相同的不合理现象,使词语语义相似度的计算结果更为合理。实验表明,该方法对MC30词对的相似度计算值与人工判定值相比,取得了0.856的皮尔逊相关系数,该结果高于目前大多数词语相似度算法与MC30的相关度。
  相似文献   

10.
蒙古语语义信息词典(SIKM)作为一部知识库已成为整个蒙古语语言资源的组成部分。自2009年至今,词典的研发取得了阶段性进展。SIKM现已收录5.7万多条记录,涵盖4个词典库。其中包含全部词语的1个“总库”,名词、形容词、动词等3个词类各建一个数据库。每个数据库文件都详细刻画了各词类词语及其语义属性的二维关系。目前已完成5.7万多条词语的语义分类和属性描述,该分类体系和词典的一些属性信息初步被应用到蒙古文信息处理相关基础研究和开发之中。介绍词典规模及结构,语义分类体系、属性字段描述以及研制过程中遇到的一些难点,词典的初步应用情况等内容。  相似文献   

11.
语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了词汇语义信息和实体类型信息之间的冗余性。在ACE2005中文语料库上的关系抽取实验表明,在未知实体类型的前提下,语义信息能显著提高抽取性能;而在已知实体类型的情况下,语义信息也能明显提高某些关系类型的抽取性能,这说明《词林》语义信息和实体类型信息在中文语义关系抽取中具有一定的互补性。  相似文献   

12.
程传鹏  齐晖 《计算机工程》2012,38(5):288-290
针对传统主观题自动评分准确度低的问题,提出一种基于文本相似度计算的主观题评分方法。利用扩展的《同义词词林》计算词语之间的相似度,根据标准答案中的词语和学生答卷中的词语以及词语之间的相似度构造二部图,通过二部图的最大匹配算法获得标准答案和学生答案的相似度。实验结果表明,该方法可以给主观题评分提供一个较好的参考。  相似文献   

13.
该文旨在以HowNet为例,探讨在表示学习模型中引入人工知识库的必要性和有效性。目前词向量多是通过构造神经网络模型,在大规模语料库上无监督训练得到,但这种框架面临两个问题: 一是低频词的词向量质量难以保证;二是多义词的义项向量无法获得。该文提出了融合HowNet和大规模语料库的义原向量学习神经网络模型,并以义原向量为桥梁,自动得到义项向量及完善词向量。初步的实验结果表明该模型能有效提升在词相似度和词义消歧任务上的性能,有助于低频词和多义词的处理。作者指出,借重于人工知识库的神经网络语言模型应该成为今后一段时期自然语言处理的研究重点之一。  相似文献   

14.
词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,该文将多义词的上下文作为特征,形成特征向量,通过计算多义词词向量与特征向量之间相似度进行词语消歧。作为一种无监督的方法,该方法大大降低了词义消歧的计算和时间成本。在SENSEVAL-3的测试数据中准确率达到了37.7%,略高于相同测试集下其他无监督词义消歧方法的准确率。  相似文献   

15.
针对目前融合词义信息的短语句法分析过程中,多义词词义消歧较差的问题,提出一种基于词性消歧的中文短语句法分析方法。首先构建具有词性信息的同义词字典;然后对训练集和测试集中的词语进行词义替换,利用多义词的词性区分其不同的词义。在宾州中文树库(CTB)的实验结果表明,正确率为80.30%,召回率为78.12%,F值为79.19%。相对于没有进行词性消歧的系统,该方法有效提高了短语句法分析的性能。  相似文献   

16.
词典是汉语自然语言处理中非常重要的一类资源,它能为汉语词法句法以及语义分析等提供资源支撑。该文采用众包方法构建汉语语义相关性词典,该词典是通过触发词联想的方式间接获取的,因此又称为词汇联想网络。词汇联想网络相比传统词典具有以下特点 (1)获取代价低;(2)面向互联网,易扩展;(3)词语关系从人的认知角度来建立,符合人的直觉。该文详细介绍词汇联想网络的获取方法并对已获取的数据进行分析,另外,将词汇联想网络与《知网》、《同义词词林》以及微博文本ngram进行比较说明其上述特点。  相似文献   

17.
程传鹏  杨要科 《计算机应用》2011,31(12):3275-3277
针对自动文摘的信息冗余问题,提出了一种冗余语句消除的方法。利用《同义词词林》来定义词语语义距离计算公式,根据词语的相似度,建立主题词和主题句之间的一一对应关系,借用编码理论中海明距离的理论,得到了文摘中主题句的相似度,设置阈值过滤掉相似度较高的主题句,从而实现了主题句的约简。实验结果证明,该方法提高了文摘的精度。  相似文献   

18.
远程监督是一种根据知识库自动对齐实体进行大规模语料标注的方法,但过强的假设导致获取的语料混有大量的噪声.针对这一问题,提出了一种基于同义词词林和规则的中文远程监督人物关系抽取方法,该方法基于多示例学习思想将人物关系句子划分为包(bag)级,利用同义词词林对人物关系触发词做词频统计,确定最大词频候选关系和次大词频候选关系,再结合特定的人物关系判别规则判断人物关系.对bag判断出某个人物关系后,再对其进一步进行多关系预测,最终得到人物关系预测结果.在大规模的中文远程监督人物关系抽取公开数据集(IPRE)上的实验结果表明,所提方法得到的结果具有较好的F1值,并且能识别远程监督数据测试集标签所没标注出的人物关系.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号