首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 187 毫秒
1.
基于向量空间模型中义项词语的无导词义消歧   总被引:22,自引:0,他引:22  
鲁松  白硕  黄雄 《软件学报》2002,13(6):1082-1089
有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下,将待消歧多义词与义项词语映射到向量空间中,基于k-NN(k=1)方法,计算二者相似度来实现词义消歧任务.在对10个典型多义词进行词义消歧的测试实验中,采用该方法取得了平均正确率为83.13%的消歧结果.  相似文献   

2.
基于MDL聚类的无导词义消歧   总被引:2,自引:0,他引:2  
无导词义消歧避免了人工词义标注的巨大工作量,可以适应大规模的多义词消歧工作,具有广阔的应用前景.提出了一种无导词义消歧的方法,该方法以hownet词库为词典,采用二阶上下文构造上下文向量,使用MDL算法进行聚类,最后通过计算相似度来进行词义的排歧.实验是在抽取术语的基础上进行的,在8个汉语高频多义词的测试中取得了平均准确率81.12%的较好的效果.  相似文献   

3.
一个汉语词义自动标注系统的设计与实现   总被引:2,自引:1,他引:1  
词义排歧在自然语言处理领域占有重要地位。词义排歧的精确率依赖于排歧知识的完备性。但是目前使用基于词典的和基于语料库的词义排歧方法来获取排歧知识的效果都不令人满意。文章将介绍了一个汉语词义自动标注系统,该系统实现了基于语料库的无指导的词义排歧模型,比较成功地解决了排歧知识的获取瓶颈问题。文章将给出系统的总体设计和具体实现,并给出系统测试结果。  相似文献   

4.
基于k-means聚类的无导词义消歧   总被引:5,自引:3,他引:5  
无导词义消歧避免了人工词义标注的巨大工作量,可以适应大规模的多义词消歧工作,具有广阔的应用前景。这篇文章提出了一种无导词义消歧的方法,该方法采用二阶context 构造上下文向量,使用k-means算法进行聚类,最后通过计算相似度来进行词义的排歧. 实验是在抽取术语的基础上进行的,在多个汉语高频多义词的两组测试中取得了平均准确率82167 %和80187 %的较好的效果。  相似文献   

5.
赵晨光  蔡东风 《计算机应用》2010,30(6):1671-1672
为了提高词义排歧的准确率,提出了一种基于改进的向量空间模型(VSM)的词义排歧策略,该模型在提取特征向量的基础上,考虑了语法、词形、语义等因素,计算语境相似度,并引入搭配约束,改进了算法的效果,在开放测试环境下,词义标注正确率可达到80%以上。实验结果表明,该方法对语境信息的描述更加全面,有利于进一步的语义分析。  相似文献   

6.
本文论述了现代维语短语自动划分标注的基本处理算法、排歧处理、词义排歧中的搭配、现代维语词义排歧算法的语言学依据、现代维语词义排歧算法的实现。通过典型的例子,说明了分析器中存在的问题可以用短语划分标注和词义排歧相结合的方法并扩展到句义排歧方法来解决。  相似文献   

7.
维语句法分析器中的词义排岐问题的研究   总被引:1,自引:0,他引:1  
本文论述了现代维语短语自动划分标注的基本处理算法,排歧处理,词义排歧中的搭配,现代维语词义排歧算法的语言学依据,现代维语词义排歧算法的实现。通过典型的例子,说明了分析器中存在的问题可以用短语划分标和词义排歧相结合的方法并扩展到句义排歧方法来解决。  相似文献   

8.
作为一种稀缺资源,人工标注语料的匮乏限制了有指导词义消歧系统的大规模应用。有人提出了利用目标词的单义同义词在生语料中自动获取词义消歧语料的方法,然而,在某些上下文当中,用目标词替换这些单义的同义词并不合适,从而带来噪声。为此,笔者使用语言模型过滤这些噪声,达到净化训练数据,提高系统性能的目的。笔者在Senseval-3国际评测中文采样词词义消歧数据集上进行了实验,结果表明经过语言模型过滤的词义消歧系统性能明显高于未经过滤的系统。  相似文献   

9.
为了提高词义消歧的质量, 对歧义词汇的上下文进行结构分析, 提出了一种利用句法知识来指导消歧过程的方法。在歧义词汇上下文的句法树中, 提取句法信息和词性信息作为消歧特征; 同时, 使用朴素贝叶斯模型作为消歧分类器。利用词义标注语料对分类器的参数进行优化, 然后对测试数据中的歧义词汇进行消歧。实验结果表明, 消歧的准确率有所提升, 达到了66. 7%。  相似文献   

10.
辛日华 《控制工程》2012,19(4):716-717,722
词义排歧是自然语言处理中的一个难点问题,它在机器翻译、信息检索、句子分析和语音识别等自然语言处理的许多领域中起着举足轻重的作用。因此词义排歧方法的研究在自然语言处理领域具有重要的理论和实践意义。获得带语义标记的大规模训练语料是词义排歧在自然语言处理中的一个难点。为了解决这一问题,提出了一种基于知识的语义剪枝方法。其目的是通过语义剪枝系统尽可能地减少歧义词在上下文中错误的或最不可能的义项。语义剪枝以后,形成词和其可能义项的一个列表,尽量将一个词真正正确的义项保留下来。为了对语义剪枝算法进行评价,特意开发了一个人机交互的语义标注系统,并将获得的语料应用到了词义排歧系统。通过对系统标注的语料和人工标注的语料进行对比,达到对算法评价的目的,收到了良好的效果。  相似文献   

11.
无监督词义消歧研究   总被引:3,自引:0,他引:3  
王瑞琴  孔繁胜 《软件学报》2009,20(8):2138-2152
研究的目的是对现有的无监督词义消歧技术进行总结,以期为进一步的研究指明方向.首先,介绍了无监督词义消歧研究的意义.然后,重点总结分析了国内外各类无监督词义消歧研究中的各项关键技术,包括使用的数据源、采用的消歧方法、评价体系以及达到的消歧效果等方面.最后,对14个较有特色的无监督词义消歧方法进行了总结,并指出无监督词义消歧的现有研究成果和可能的发展方向.  相似文献   

12.
针对现存的基于EM (Expectation maximization)迭代的无指导词义消歧方法收敛缓慢、计算量大的问题, 利用互信息和Z-测试结合的方法选取特征, 并通过一种 统计学习算法估算初始参数值. 实验结果表明改进方法有效地提高了汉语词义消歧的准确率, 具有良好的扩展性和实用性.  相似文献   

13.
王永生  柴佩琪 《计算机应用》2006,26(3):651-0654
英文文语转换系统中的韵律生成模块和多音词消歧模块均必须用到单词的词性信息,因而词性标注是英文TTS系统中一个非常重要的部分。讨论了在只有一个词库的有限条件下,如何通过决策树中的C4.5算法进行词性标注的非监督学习,同时讨论了未登录词的词性猜测问题。  相似文献   

14.
多分类器集成的汉语词义消歧研究   总被引:10,自引:0,他引:10  
词义消歧长期以来一直是自然语言处理中的热点和难题,集成方法被认为是机器学习研究的四大趋势之一.系统研究了9种集成学习方法在汉语词义消歧中的应用.9种集成方法分别是乘法规则、均值、最大值、最小值、多数投票、序列投票、加权投票、概率加权和单分类器融合,其中乘法规则、均值、最大值3种集成方法还未曾应用于词义消歧.选取支持向量机模型、朴素贝叶斯和决策树作为3个单分类器.在两个不同的数据集上进行了实验,其一是选自现代汉语语义标注语料库的18个多义词,其二是国际语义评测SemEval-2007的中英文对译选择词消歧任务.实验结果显示,首次在词义消歧中引入应用的3种集成方法乘法、均值、最大值有良好的性能表现,3种方法的消歧准确率均高于最佳单分类器SVM,而且优于其他6种集成方法.  相似文献   

15.
词义消歧是自然语言处理中的一个关键问题,为提高大规模词义消歧的准确率,提出了一种基于模板的无导词义消歧方法。利用多义词不同义项的同义或近义单义词对该义项进行表述,综合考虑共现词出现的位置、上下文距离及出现频次,据此构造语境模板,有效地解决了多义词义项确定的困难。实验结果表明,本文提出的方法在消歧性能方面有较明显的改善。  相似文献   

16.
从搭配知识获取最优种子的词义消歧方法   总被引:5,自引:3,他引:5  
基于统计的词义消歧模型的一个关键问题是如何自动从语料库中获取指示词,虽然通过学习初始搭配实例能够在语料库中获取更多的搭配知识,但人工获取质量较好的初始搭配是比较困难的,并且无法保证有效的扩大搭配知识。针对该问题,提出了通过机器学习初始搭配实例获取最优种子,再由最优种子扩增更多指示词,最后利用这些指示词实现具有多个义项的多义词消歧。采用该方法对8 个多义词进行消歧的测试实验中取得了8717 %的平均正确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号