共查询到10条相似文献,搜索用时 46 毫秒
1.
2.
本文提出了一种基于词和词义混合的统计语言模型,研究了这个模型在词义标注和汉语普通话语音识别中的性能,并且与传统的词义模型和基于词的语言模型进行了对比。这个模型比传统词义模型更准确地描述了词义和词的关系,在词义标注中具有较小的混淆度;在汉语普通话连续音识别中,这个词义模型的性能优于基于词的三元文法模型,并且需要较小的存储空间。 相似文献
3.
4.
在自然语言处理中,多义疑问词的词义识别尚存改进空间。以“怎么”为例,其可表全称解读(任指)、存在解读(虚指)和疑问解读(询问状况、性状、方式和原因)。目前主流机器翻译系统在处理“怎么”的识别情况上仍需改进。该文从词义排歧的角度出发,尝试总结“怎么”的三类解读所处的句法环境的特征,确立复杂句法环境中其语义表现,进而构建一个基于规则的词义排歧模型,制定词义排歧决策表,为提高机器对该类词的识别率提供一种思路。最后,通过实验验证该决策表,并对其改进。 相似文献
5.
传统的基于向量空间模型的文本相似度计算方法,用TF-IDF计算文本特征词的权重,忽略了特征词之间的词义相似关系,不能准确地反映文本之间的相似程度。针对此问题,提出了结合词义的文本特征词权重计算方法,基于Chinese WordNet采用词义向量余弦计算特征词的词义相似度,根据词义相似度对特征词的TF-IDF权重进行修正,修正后的权重同时兼顾词频和词义信息。在哈尔滨工业大学信息检索研究室多文档自动文摘语料库上的实验结果表明,根据修正后的特征词权重计算文本相似度,能够有效地提高文本的类区分度。 相似文献
6.
一种基于词义向量模型的词语语义相似度算法 总被引:1,自引:0,他引:1
针对基于词向量的词语语义相似度计算方法在多义词、非邻域词和同义词三类情况计算准确性差的问题, 提出了一种基于词义向量模型的词语语义相似度算法.与现有词向量模型不同, 在词义向量模型中多义词按不同词义被分成多个单义词, 每个向量分别与词语的一个词义唯一对应.我们首先借助同义词词林中先验的词义分类信息, 对语料库中不同上下文的多义词进行词义消歧; 然后基于词义消歧后的文本训练词义向量模型, 实现了现有词向量模型无法完成的精确词义表达; 最后对两个比较词进行词义分解和同义词扩展, 并基于词义向量模型和同义词词林综合计算词语之间的语义相似度.实验结果表明本文算法能够显著提升以上三类情况的语义相似度计算精度. 相似文献
7.
针对自然语言处理领域词义消歧这一难点,提出一种新的汉语词义消歧方法。该方法以《知网》为语义资源,充分利用词语之间的优先组合关系。根据优先组合库得到句中各个实词与歧义词之间的优先组合关系;将各实词按照优先组合关系大小进行排列;计算各实词概念与歧义词概念之间的相似度,以判断歧义词词义。实验结果表明该方法对于高频多义词消歧是有效的,可作为进一步结构消歧的基础。 相似文献
8.
9.
本文提出了一种基于扩展概念图的词义识别算法。该算法通过搜索概念图,寻找待识别词的两两词义之间的祖先分叉点和分叉路径.从而找到词义之间的相对差异路径,即决定路径。结合上下文词语的出现频率,该算法可以计算出上下文词语对各决定路径的支持度。而词义之间的相对决定路径的支持度的差别.正好反映了词叉对待识别词的相对适合程度。本文提出的算法就是通过计算和比较这种差别,最终选出最适合待识别词的词义。为了对所提出的算法进行评估和比较,我们借助WordNet1.6和SemCor进行测试。测试结果表明,该算法具有较高的词义识别效率和准确度。 相似文献
10.
针对传统的基于义原同现频率的汉语词义排歧方法存在“盲目性”的不足,笔者根据《知网》中对概念定义的描述,分别计算多义词的每个义项与特征词的第一独立义原、其他独立义原、关系义原、符号义原之间的相关系数;最后通过比较多义词的每个义项与特征词之间的相关系数来决定多义词的义项.经过实验验证,该方法进一步提高了词义排歧的效果. 相似文献