首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
谢芳  胡泉 《计算机工程与应用》2006,42(12):187-189,203
词义消歧在自然语言处理中一直是一个难点问题,同时,也是很多领域都需要解决的一个重要环节。文章首先介绍了目前一些常用词义消歧方法的特点和这些方法的研究进展,并在此基础上探讨了一种基于BP神经网络和统计方法相结合的有导词义消歧模型,最后详细讲解了BP神经网络原理,并对使用这种混合人工智能的消歧模型的可能性和优越性进行了讨论。  相似文献   

2.
词义消歧,作为自然语言处理领域最具挑战性的任务之一,目前正面临着知识获取瓶颈(Knowledge Acquisition Bottleneck)的阻碍.目录标签消歧,作为词义消歧的又一崭新的应用领域,是轻量级本体学习(Lightweight Ontology Learning)中十分重要的一个环节.旨在探索一种基于Web知识(不受知识获取瓶颈制约)并应用于目录标签消歧的词义消歧方法.其主要思想为:首先,利用Web知识(Web搜索引擎)和WordNet等外部资源,将待消歧词t的上下文c及n个候选词义s1…sn扩展为各自的向量形式,并提出的一种tf-idf变体(条件tf-idf)来计算向量中的分量值.之后,又提出一种新颖的混合消歧模型,综合考虑各候选词义与待消歧词上下文的相关度及候选词义先验分布这两个因素进行消歧.据了解,类似做法在基于Web的词义消歧中还未出现过.在实验中,在网页目录DMOZ的一个子集(共1100个待消歧词)上进行了实验.系统以100%的召回率达到83.40%的准确率,高于基线准确率(单纯根据词义先验分布消歧)73.37%达10个百分点.  相似文献   

3.
词汇情感消歧是文本情感倾向性分析的关键技术之一。该文在分析比较了词汇情感消歧和词义消歧异同后,从情感分析角度出发,提出了基于图排序的词汇情感消歧方法。该方法通过自动获取和人工校正相结合的方式获得多情感词汇,然后根据语义关系构建词义关系图,进而在词义关系图上迭代计算直至收敛,最后选择多情感词汇的词义中权值最大的词义作为结果输出,从而实现情感消歧。该文分别在新浪微博语料库和情感语料库上验证了该方法的有效性。  相似文献   

4.
词义消歧在自然语言处理的许多应用领域都起着十分重要的作用。为了适用于大规模的词义消歧,提出了一种无导的学习方法。基于向量空间模型,结合机读词典和义类词典建立从义项到义类的映射关系,再利用义类知识在语料库中无导学习消歧特征,最后利用这些特征实现词义消歧。  相似文献   

5.
《软件》2019,(2):11-15
在计算机语言学中,词义消歧是自然语言处理的一个重要问题,词义消歧即指根据上下文确定对象语义的过程,在词义、句义、篇章中都会出现这种词语在上下文的语义环境中有不同的含义的现象。本文提出一种基于神经网络的模型实现词义消歧,将词向量输入神经网络,通过分类的方式实现消歧的目的。实验表明,基于神经网络的词义消歧比传统的统计方法消歧具有更高的准确度。  相似文献   

6.
基于对数模型的词义自动消歧   总被引:9,自引:0,他引:9  
朱靖波  李珩  张跃  姚天顺 《软件学报》2001,12(9):1405-1412
提出了一种对数模型(logarithmmodel,简称LM),构造了一个词义自动消歧系统LM-WSD(wordsensedisambiguationbasedonlogarithmmodel).在词义自动消歧实验中,构造了4种计算模型进行词义消歧,根据4个计算模型的消歧结果,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响.目前,该词义自动消歧系统LM-WSD已经应用于基于词层的英汉机器翻译系统(汽车配件专业领域)中,有效地提高了翻译性能.  相似文献   

7.
针对传统的词义消歧方法不能对短小的用户查询词进行词义消歧,提出了一种基于语义关系图的词义消歧方法,利用改进的PageRank算法计算语义关系图中的各词义节点权重,选择权重较大的词义作为消歧后的查询词词义。实验结果验证了该方法的有效性。  相似文献   

8.
传统的基于知识库的词义消歧方法采用同一种类型知识(语义或共现关系)进行消歧,忽略了不同类型知识之间的互补作用.针对此问题,在传统的网络图词义消歧模型基础上,通过模型重构和对比实验,提出了一种基于异构关系网络图的词义消歧模型.该模型能够把多种类型的词义消歧知识有机融合到同一个网络图中,充分利用了多种知识协同消歧的优势.同时设计并实现了一种基于模拟退火的自动估计各种知识类型关系权重的方法,以最优化各种知识对消歧效果的影响.该方法是一种无监督的词义消歧方法,可以有效克服数据稀疏及知识获取瓶颈等问题.在SemEval-2007上的测试结果表明,该方法的消歧性能优于基线方法和目前参加该项评测的最好系统.  相似文献   

9.
词义消歧在自然语言处理中一直是一个难点问题,同时,也是很多领域都需要解决的一个重要环节。本文介绍了一种基于统计语言模型和统计方法相结合的有导词义消歧模型,详细讲解了统计语言模型原理;通过实验发现,在有限的标注语言条件下,语言模型确实可以提高词义消歧的性能。由此得出,统计语言模型在词义消歧的中具有良好的应用前景。  相似文献   

10.
一个汉语词义自动标注系统的设计与实现   总被引:2,自引:1,他引:1  
词义排歧在自然语言处理领域占有重要地位。词义排歧的精确率依赖于排歧知识的完备性。但是目前使用基于词典的和基于语料库的词义排歧方法来获取排歧知识的效果都不令人满意。文章将介绍了一个汉语词义自动标注系统,该系统实现了基于语料库的无指导的词义排歧模型,比较成功地解决了排歧知识的获取瓶颈问题。文章将给出系统的总体设计和具体实现,并给出系统测试结果。  相似文献   

11.
Corpus-based techniques have proved to be very beneficial in the development of efficient and accurate approaches to word sense disambiguation (WSD) despite the fact that they generally represent relatively shallow knowledge. It has always been thought, however, that WSD could also benefit from deeper knowledge sources. We describe a novel approach to WSD using inductive logic programming to learn theories from first-order logic representations that allows corpus-based evidence to be combined with any kind of background knowledge. This approach has been shown to be effective over several disambiguation tasks using a combination of deep and shallow knowledge sources. Is it important to understand the contribution of the various knowledge sources used in such a system. This paper investigates the contribution of nine knowledge sources to the performance of the disambiguation models produced for the SemEval-2007 English lexical sample task. The outcome of this analysis will assist future work on WSD in concentrating on the most useful knowledge sources.  相似文献   

12.
基于领域知识的图模型词义消歧方法   总被引:1,自引:0,他引:1  
鹿文鹏  黄河燕  吴昊 《自动化学报》2014,40(12):2836-2850
对领域知识挖掘利用的充分与否,直接影响到面向特定领域的词义消歧(Word sense disambiguation, WSD)的性能.本文提出一种基于领域知识的图模型词义消歧方法,该方法充分挖掘领域知识,为目标领域收集文本领域关联词作为文本领域知识,为目标歧义词的各个词义获取词义领域标注作为词义领域知识;利用文本领域关联词和句子上下文词构建消歧图,并根据词义领域知识对消歧图进行调整;使用改进的图评分方法对消歧图的各个词义结点的重要度进行评分,选择正确的词义.该方法能有效地将领域知识整合到图模型中,在Koeling数据集上,取得了同类研究的最佳消歧效果.本文亦对多种图模型评分方法做了改进,进行了详细的对比实验研究.  相似文献   

13.
基于维基百科的自动词义消歧方法   总被引:2,自引:1,他引:1       下载免费PDF全文
针对传统词义消歧仅基于上下文语境而导致准确率低的问题,提出一种多策略的无监督自动词义消歧方法。利用从维基百科在线中提炼出的丰富语义知识,线性融合上下文语境、背景知识和语义信息3大特征,根据逻辑回归算法学习各特征的权重,选取最大融合值所对应的候选项作为最优词义。在SENSEVAL数据集上取得了85.50%的平均准确率,验证了该方法的有效性。  相似文献   

14.
基于向量空间模型的有导词义消歧   总被引:22,自引:1,他引:21  
词义消歧一直是自然语言理解中的一个关键问题,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣。由于自然语言知识表示的困难,在手工规则的词义消歧难以达到理想效果的情况下,各种有导机器学习方法被应用于词义消歧任务中,借鉴前人的成果引入信息检索领域中空间模型文档词语权重计算技术来解决多义词义项的知识表示问题,并提出了上下文位置权重的计算方法,给出了一种基于向量空间模型的词义消岐有导机器学习方法。该方法将多义词的义项和上下文分别映射到向量空间中,通过计算多义词上下文向量与义项向量的距离,采用k-NN(k=1)方法来确定上下文向量的义项分类。在9个汉语高频多义词的开放和封闭测试中均取得了突出的成绩(封闭测试平均正确率为96.31%,开放测试平均正确率为92.98%),验证了该方法的有效性。  相似文献   

15.
杨陟卓 《计算机应用》2015,35(4):1006-1008
针对传统词义消歧方法面临的数据稀疏问题,提出一种基于上下文语境的词义消歧方法。该方法假设同一篇文章中的句子之间共享一些相同的话题,首先,抽取在同一篇文章中包含相同歧义词的句子,这些句子可以作为歧义句的上下文语境,为其中的一个歧义句子提供消歧知识;其次,通过一种无监督的词义消歧方法进行词义消歧。在真实的语料上实验结果表明,使用2个上下文语境句子,窗口大小为1时,该方法的消歧准确率比基线方法(OrigDisam)提高了3.26%。  相似文献   

16.
独立的词义消歧模型性能已经获得很大提高, 但是对于独立消歧模型在机器翻译系统中应用的必要性和作用一直存在着不同的观点. 为了从更为一般性的角度评价这个问题, 本文突破了具体模型的限制, 通过在不同类型汉英机器翻译系统中引入不受特定条件约束的高精度全词消歧过程, 对词义消歧在机器翻译系统中的影响进行了较为充分和全面的评价. 实验结果证明词义消歧模型不仅本身具有一定的翻译能力, 而且可以提高不同类型的机器翻译系统的整体性能. 同时也说明当前的翻译系统在消歧能力上还有较大的提升空间.  相似文献   

17.
基于WordNet词义消歧的系统融合   总被引:3,自引:3,他引:0  
刘宇鹏  李生  赵铁军 《自动化学报》2010,36(11):1575-1580
最近混淆网络在融合多个机器翻译结果中展示很好的性能. 然而为了克服在不同的翻译系统中不同的词序, 假设对齐在混淆网络的构建上仍然是一个重要的问题. 但以往的对齐方法都没有考虑到语义信息. 本文为了更好地改进系统融合的性能, 提出了用词义消歧(Word sense disambiguation, WSD)来指导混淆网络中的对齐. 同时骨架翻译的选择也是通过计算句子间的相似度来获得的, 句子的相似性计算使用了二分图的最大匹配算法. 为了使得基于WordNet词义消歧方法融入到系统中, 本文将翻译错误率(Translation error rate, TER)算法进行了改进, 实验结果显示本方法的性能好于经典的TER算法的性能.  相似文献   

18.
一种基于聚类的汉语词语知识的获取方法   总被引:1,自引:0,他引:1  
在自然语言处理中,知识的自动获取一直是一个核心问题。但如何实现知识的自动获取呢?该文在基于实例的学习方法(Example-BasedLearning,简称EBL)的基础上,提出了一种基于聚类的汉语多义词知识的自动获取方法。实验结果证明,用该方法获得的知识对汉语的词义排歧是有效的。  相似文献   

19.
词义消歧是一项具有挑战性的自然语言处理难题。作为词义消歧中的一种优秀的半监督消歧算法,遗传蚁群词义消歧算法能快速进行全文词义消歧。该算法采用了一种局部上下文的图模型来表示语义关系,以此进行词义消歧。然而,在消歧过程中却丢失了全局语义信息,出现了消歧结果冲突的问题,导致算法精度降低。因此, 提出了一种基于全局领域和短期记忆因子改进的图模型来表示语义以解决这个问题。该图模型引入了全局领域信息,增强了图对全局语义信息的处理能力。同时根据人的短期记忆原理,在模型中引入了短期记忆因子,增强了语义间的线性关系,避免了消歧结果冲突对词义消歧的影响。大量实验结果表明:与经典词义消歧算法相比,所提的改进图模型提高了词义消歧的精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号