共查询到10条相似文献,搜索用时 31 毫秒
1.
一种基于知网的中文词义消歧算法 总被引:3,自引:2,他引:1
词义消歧对自然语言处理领域许多问题的研究具有重要的理论和实践价值.针对该问题,提出了一种基于知网的中文词义消歧算法.为了考虑上下文词汇对词义消歧的不同影响,以语义相似度计算为基础,设计了三种语义联系强度计算方法,并且制定了四条词义消歧规则,依此实现中文词义消歧.实验数据显示该方法可获得65%左右的召回率和75%左右的准确率. 相似文献
2.
3.
词义消歧问题是自然语言处理方面的重点和难点之一.本文利用机器可读词典<知网>和<辞海>获取初始搭配资源,采用统计的方法对搭配集进行扩展;利用语言学中的搭配知识对扩展后的搭配集进行了有效的缩减;最后利用所获得的搭配集来对多义词进行词义消歧.经试验证明,该方法对词义消歧是有效的. 相似文献
4.
5.
针对自然语言处理领域词义消歧这一难点,提出一种新的汉语词义消歧方法。该方法以《知网》为语义资源,充分利用词语之间的优先组合关系。根据优先组合库得到句中各个实词与歧义词之间的优先组合关系;将各实词按照优先组合关系大小进行排列;计算各实词概念与歧义词概念之间的相似度,以判断歧义词词义。实验结果表明该方法对于高频多义词消歧是有效的,可作为进一步结构消歧的基础。 相似文献
6.
一种新的汉语词义消歧方法 总被引:2,自引:0,他引:2
针对自然语言处理领域词义消歧这一难点,提出一种新的汉语词义消歧方法。该方法以《知网》为语义资源,充分利用词语之间的优先组合关系。根据优先组合库得到句中各个实词与歧义词之间的优先组合关系;将各实词按照优先组合关系大小进行排列;计算各实词概念与歧义词概念之间的相似度,以判断歧义词词义。实验结果表明该方法对于高频多义词消歧是有效的,可作为进一步结构消歧的基础。 相似文献
7.
提出一种基于知网的汉语普通未登录词语义分析模型,该模型以概念图为知识表示方法,以2005版知网为语义知识资源,首先参照知网知识词典对普通未登录词进行分词;然后综合利用知网中的知识词典等知识,通过词性序列匹配消歧法、概念图相容性判定消歧法、概念图相容度计算消歧法及语义相似度计算消歧法对中文信息结构进行消歧;最后根据所选择的中文信息结构生成未登录词的概念图,从而实现未登录词的语义分析。该模型在语义分析过程中一方面确定了未登录词中每个已登录词的词义,另一方面构造了该未登录词的语义信息,实验结果证明它可以作为普通未登录词语义分析的原型系统。 相似文献
8.
词义消歧是自然语言处理中的难点问题,为提高消歧效果,提出一种基于多节点组合特征的词义消歧方法.根据依存语法理论,选择歧义词的祖父+父亲+孩子节点组合,并将其作为消歧特征.利用模糊C均值聚类算法,建立消歧模型,最终确定歧义词词义类别.采用哈工大信息检索研究中心语言技术平台的词义语料进行实验.实验结果表明,相比现有的两种方法,该方法不仅使特征维度平均值分别降低了5和25,且F1值分别提高了1.56个百分点和0.84个百分点,在一定程度上提升了词义消歧效果. 相似文献
9.
词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,该文将多义词的上下文作为特征,形成特征向量,通过计算多义词词向量与特征向量之间相似度进行词语消歧。作为一种无监督的方法,该方法大大降低了词义消歧的计算和时间成本。在SENSEVAL-3的测试数据中准确率达到了37.7%,略高于相同测试集下其他无监督词义消歧方法的准确率。 相似文献
10.
词义消歧是自然语言处理领域的一个重要研究课题。词义标注的一致性将直接影响语料库的建设质量,进而直接或间接影响到其相关的应用领域。由于语言本身的复杂性与发展性以及算法设计的难点和缺陷,目前各种词义标注的算法与模型还不能百分之百正确地标注词义,即不能保证词义消歧的正确性与一致性。而人工校验在时间、人力方面的投入是个难题。该文在对《人民日报》语料、语句相似度算法和语义资源《知网》研究的基础上,提出了对《人民日报》语料词义标注进行一致性检验的方法。实验结果表明,此方法是有效的。 相似文献