首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
无监督词义消歧研究   总被引:3,自引:0,他引:3  
王瑞琴  孔繁胜 《软件学报》2009,20(8):2138-2152
研究的目的是对现有的无监督词义消歧技术进行总结,以期为进一步的研究指明方向.首先,介绍了无监督词义消歧研究的意义.然后,重点总结分析了国内外各类无监督词义消歧研究中的各项关键技术,包括使用的数据源、采用的消歧方法、评价体系以及达到的消歧效果等方面.最后,对14个较有特色的无监督词义消歧方法进行了总结,并指出无监督词义消歧的现有研究成果和可能的发展方向.  相似文献   

2.
影响词义消歧的特征是多方面的,为考察上下文指示词这一消歧特征,提出了利用统计的方法抽取指示词用于词义消歧。实验表明,该方法是可行的,并为利用多特征进行汉语自动消歧提供了可靠的参考。  相似文献   

3.
基于对数模型的词义自动消歧   总被引:9,自引:0,他引:9  
朱靖波  李珩  张跃  姚天顺 《软件学报》2001,12(9):1405-1412
提出了一种对数模型(logarithmmodel,简称LM),构造了一个词义自动消歧系统LM-WSD(wordsensedisambiguationbasedonlogarithmmodel).在词义自动消歧实验中,构造了4种计算模型进行词义消歧,根据4个计算模型的消歧结果,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响.目前,该词义自动消歧系统LM-WSD已经应用于基于词层的英汉机器翻译系统(汽车配件专业领域)中,有效地提高了翻译性能.  相似文献   

4.
词义消歧是自然语言处理中的一个关键问题,为提高大规模词义消歧的准确率,提出了一种基于模板的无导词义消歧方法。利用多义词不同义项的同义或近义单义词对该义项进行表述,综合考虑共现词出现的位置、上下文距离及出现频次,据此构造语境模板,有效地解决了多义词义项确定的困难。实验结果表明,本文提出的方法在消歧性能方面有较明显的改善。  相似文献   

5.
针对现存的基于EM (Expectation maximization)迭代的无指导词义消歧方法收敛缓慢、计算量大的问题, 利用互信息和Z-测试结合的方法选取特征, 并通过一种 统计学习算法估算初始参数值. 实验结果表明改进方法有效地提高了汉语词义消歧的准确率, 具有良好的扩展性和实用性.  相似文献   

6.
《软件》2019,(2):11-15
在计算机语言学中,词义消歧是自然语言处理的一个重要问题,词义消歧即指根据上下文确定对象语义的过程,在词义、句义、篇章中都会出现这种词语在上下文的语义环境中有不同的含义的现象。本文提出一种基于神经网络的模型实现词义消歧,将词向量输入神经网络,通过分类的方式实现消歧的目的。实验表明,基于神经网络的词义消歧比传统的统计方法消歧具有更高的准确度。  相似文献   

7.
基于最大熵原理的汉语词义消歧   总被引:3,自引:0,他引:3  
陈笑蓉  秦进 《计算机科学》2005,32(5):174-176
词义消歧是自然语言处理中亟待解决的一个关键问题,本文提出一种基于最大熵模型的有监督的机器学习方法,用于汉语词义消歧。该方法综合了词标记、词性、主题等上下文特征,并用一种统一的表示方法规范化特征形式,解决了多种不同特征之间的融合和特征的知识表示。实验对20个汉语高频多义词进行了测试,平均正确率为87%,验证了该方法的有效性。  相似文献   

8.
基于多分类器决策的词义消歧方法   总被引:2,自引:0,他引:2  
词义消歧问题可以形式化为典型的分类问题.通过学习少量带有词义标注的语料构造多个消歧分量分类器,并利用未标语料动态地对这些分类器进行更新,根据最终分量分类器分别对多义词义项的判定结果,组合决策多义词的义项.该方法无需手工构造大规模具有词义标注的语料库,并且具有较高的消歧准确率.  相似文献   

9.
10.
词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,该文将多义词的上下文作为特征,形成特征向量,通过计算多义词词向量与特征向量之间相似度进行词语消歧。作为一种无监督的方法,该方法大大降低了词义消歧的计算和时间成本。在SENSEVAL-3的测试数据中准确率达到了37.7%,略高于相同测试集下其他无监督词义消歧方法的准确率。  相似文献   

11.
基于语义的词义消歧算法初探   总被引:4,自引:1,他引:3  
词义消歧是自然语言处理中的难题之一。结合《知网》,从语义的角度出发,结合词性信息、搭配实例和语义相关度等信息,提出了一种多策略的词义消歧方法。  相似文献   

12.
谢芳  胡泉 《计算机工程与应用》2006,42(12):187-189,203
词义消歧在自然语言处理中一直是一个难点问题,同时,也是很多领域都需要解决的一个重要环节。文章首先介绍了目前一些常用词义消歧方法的特点和这些方法的研究进展,并在此基础上探讨了一种基于BP神经网络和统计方法相结合的有导词义消歧模型,最后详细讲解了BP神经网络原理,并对使用这种混合人工智能的消歧模型的可能性和优越性进行了讨论。  相似文献   

13.
词义消歧一直是一个难点,同时,也是很多领域都需解决的一个环节。该文首先介绍了目前基于语料库进行词义消歧方法的研究进展和各自的特点,在此基础上探讨了一种基于实例和基于统计的方法(即基于语料库的两种主流方法)相结合的混合策略,并对其可能性和优越性进行了讨论。  相似文献   

14.
基于最大熵模型的汉语词义消歧与标注方法   总被引:3,自引:0,他引:3       下载免费PDF全文
张仰森 《计算机工程》2009,35(18):15-18
分析最大熵模型开源代码的原理和各参数的意义,采用频次和平均互信息相结合特征筛选和过滤方法,用Delphi语者编程实现汉语词义消歧的最大熵模型,运用GIS(Generalized Iterative Scaling)算法计算模型的参数。结合一些语占知识规则解决训练语料的数据稀疏问题,所实现的汉语词义消歧与标注系统,对800多个多义词进行词义标注,取得了较好的标注正确率。  相似文献   

15.
基于领域知识的图模型词义消歧方法   总被引:1,自引:0,他引:1  
鹿文鹏  黄河燕  吴昊 《自动化学报》2014,40(12):2836-2850
对领域知识挖掘利用的充分与否,直接影响到面向特定领域的词义消歧(Word sense disambiguation, WSD)的性能.本文提出一种基于领域知识的图模型词义消歧方法,该方法充分挖掘领域知识,为目标领域收集文本领域关联词作为文本领域知识,为目标歧义词的各个词义获取词义领域标注作为词义领域知识;利用文本领域关联词和句子上下文词构建消歧图,并根据词义领域知识对消歧图进行调整;使用改进的图评分方法对消歧图的各个词义结点的重要度进行评分,选择正确的词义.该方法能有效地将领域知识整合到图模型中,在Koeling数据集上,取得了同类研究的最佳消歧效果.本文亦对多种图模型评分方法做了改进,进行了详细的对比实验研究.  相似文献   

16.
缪建明  张全 《计算机科学》2010,37(1):208-210
词义排岐是自然语言处理中最关键也是最困难的问题之一,至今仍没有得到完全有效的解决。在研究HNC表达汉语知识的基础上,提出了一种基于概念关联式的汉语词义消歧方法,用于处理汉语的歧义字段。该方法综合了词语概念的层次性、网络性、结构性特征,用一种统一的表示式来规范这类特征,解决了多个不同概念之间的知识关联表示问题。实验对20个汉语高频多义词进行了测试,平均正确率为94%,验证了该方法的有效性。  相似文献   

17.
杨陟卓 《计算机应用》2015,35(4):1006-1008
针对传统词义消歧方法面临的数据稀疏问题,提出一种基于上下文语境的词义消歧方法。该方法假设同一篇文章中的句子之间共享一些相同的话题,首先,抽取在同一篇文章中包含相同歧义词的句子,这些句子可以作为歧义句的上下文语境,为其中的一个歧义句子提供消歧知识;其次,通过一种无监督的词义消歧方法进行词义消歧。在真实的语料上实验结果表明,使用2个上下文语境句子,窗口大小为1时,该方法的消歧准确率比基线方法(OrigDisam)提高了3.26%。  相似文献   

18.
The paper examines the task of Word Sense Disambiguation (WSD) criticallyand compares it with Part of Speech (POS) tagging, arguing that the abilityof a writer to create new senses distinguishes the tasks and makes it moreproblematic to test WSD by the mark-up-and-model paradigm, because newsenses cannot be marked up against dictionaries. This serves to set WSDapart and puts limits on its effectiveness as an independent NLP task.Moreover, it is argued that current WSD methods based on very small wordsamples are also potentially misleading because they may or may not scaleup. Since all-word WSD methods are now available and are producing figurescomparable to the smaller scale tasks, it is argued that we shouldconcentrate on the former and find ways of bootstrapping test materialsfor such tests in the future.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号