首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
一种基于词义向量模型的词语语义相似度算法   总被引:1,自引:0,他引:1  
李小涛  游树娟  陈维 《自动化学报》2020,46(8):1654-1669
针对基于词向量的词语语义相似度计算方法在多义词、非邻域词和同义词三类情况计算准确性差的问题, 提出了一种基于词义向量模型的词语语义相似度算法.与现有词向量模型不同, 在词义向量模型中多义词按不同词义被分成多个单义词, 每个向量分别与词语的一个词义唯一对应.我们首先借助同义词词林中先验的词义分类信息, 对语料库中不同上下文的多义词进行词义消歧; 然后基于词义消歧后的文本训练词义向量模型, 实现了现有词向量模型无法完成的精确词义表达; 最后对两个比较词进行词义分解和同义词扩展, 并基于词义向量模型和同义词词林综合计算词语之间的语义相似度.实验结果表明本文算法能够显著提升以上三类情况的语义相似度计算精度.  相似文献   

2.
该文提出了一种综合知网与同义词词林的词语语义相似度计算方法。知网部分根据义原层次结构的特征,采用了顶部平缓而底部陡峭的曲线单调递减的边权重策略,改进了现有的义原相似度算法;词林部分采用以词语距离为主要因素、分支节点数和分支间隔为微调节参数的方法,改进了现有的词林词语相似度算法。然后再根据词语的分布情况,采用综合考虑知网与同义词林的动态加权策略计算出最终的词语语义相似度。该方法充分利用了词语在知网与词林中的语义信息,极大地扩充了可计算词语的范围,同时也提高了词语相似度计算的准确率。  相似文献   

3.
基于HowNet和PMI的词语情感极性计算   总被引:1,自引:0,他引:1       下载免费PDF全文
王振宇  吴泽衡  胡方涛 《计算机工程》2012,38(15):187-189,193
基于语料库的点互信息(PMI)计算方法依赖于语料库的完善性,基于HowNet的计算方法则依赖于知网相似度计算的准确性。为克服2种方法的局限性,提出一种HowNet和PMI相融合的词语极性计算方法,利用知网进行同义词扩展,降低情感词在语料库中出现频率低所带来的问题。实验结果表明,该方法的微平均和宏平均性能比传统方法提升约5%。  相似文献   

4.
知网与同义词词林的信息融合研究   总被引:6,自引:0,他引:6  
本文主要探讨了将知网(HowNet) 和同义词词林进行信息融合的方法。我们针对知网对词的概念描述和同义词词林对词的语义分类的特点,提出了一种词典信息融合的方法:首先为词林的每个词集确定一个与知网中DEF 类似的概念描述,在此基础上对两部词典中同时收录且均只有一个义项的词语进行双向意义联结,最后根据分类算法对两部词典中同时收录非单一义项的词语进行双向意义联结。实验表明,本文提出的处理策略达到了93 %的信息融合正确率,融合后形成的新词典兼有词林的分类学信息和知网的概念描述信息。  相似文献   

5.
王伟  赵尔平  崔志远  孙浩 《计算机应用》2021,41(8):2193-2198
针对目前词向量表示低频词质量差,表示的语义信息容易混淆,以及现有的消歧模型对多义词不能准确区分等问题,提出一种基于词向量融合表示的多特征融合消歧方法。该方法将使用知网(HowNet)义原表示的词向量与Word2vec生成的词向量进行融合来补全词的多义信息以及提高低频词的表示质量。首先计算待消歧实体与候选实体的余弦相似度来获得二者的相似度;其次使用聚类算法和知网知识库来获取实体类别特征相似度;然后利用改进的潜在狄利克雷分布(LDA)主题模型来抽取主题关键词以计算实体主题特征相似度,最后通过加权融合以上三类特征相似度实现多义词词义消歧。在西藏畜牧业领域测试集上进行的实验结果表明,所提方法的准确率(90.1%)比典型的图模型消歧方法提高了7.6个百分点。  相似文献   

6.
本文针对现有方法不能很好结合文本信息和知识库信息的问题, 提出一种基于关系指数和表示学习的领域集成实体链接方法.首先, 本文构建了特定领域知识库; 其次, 运用表示学习从文本信息中得到的向量表示计算实体指称项的上下文、主题关键词、扩展词三个特征的相似度; 然后, 利用知识库中的关系信息计算候选实体的关系指数; 最后, 将这三种相似度及关系指数相融合, 用于实体链接. 实验结果表明, 相较于现有方法, 本文方法能够有效地提高F1值, 并且该方法不需要标注语料, 更加简单高效, 适应于缺少标注语料的特定领域.  相似文献   

7.
针对统计学方法在领域概念获取时缺少词语语义信息的问题,提出了一种结合语义相似度和改进近邻传播算法的领域概念自动获取方法。该方法通过互信息进行合成词提取,使用对数似然比避免对低频词的遗漏,利用HowNet和余弦相似度识别术语间同义词,采用改进的近邻传播算法获取领域概念集合。实验结果表明,该方法在准确率、召回率和困惑度变化率上比传统的方法都有较大提高。  相似文献   

8.
基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。  相似文献   

9.
语义相似度计算就是把词语间语言学上的信息映射为0到1之间的数值。基于知识本体的语义相似度计算方法,利用知识本体提供的信息,建立词语关系和语义相似度之间的函数关系,该方法可解释性强、使用简单,成为语义相似度计算的一类重要方法。提出了一种基于《同义词词林》的语义相似度计算模型,该模型运用遗传算法探索了《同义词词林》语义编码与语义相似度之间的内在联系,建立了更符合《同义词词林》中所蕴含的语义相似信息的函数关系式。该方法使用遗传算法搜索知识与语义相似度的函数表达式,克服了先验模型中函数形式及调节参数的局限性,所得计算结果与人工判定结果的皮尔逊相关系数为0.8645,为使用人工智能方法挖掘自然语言处理中的规律提供了一种新的思路和方法。  相似文献   

10.
针对中文消费评价的情感分类问题,构造基于词典语义概念和上下文语义相结合的情感分类方法,对情感进行分类。该方法首先构造提取不同领域基准词集的方法。然后利用一元语言模型,通过HowNet计算情感相似值,进行情感词提取。最后结合HowNet方法和Google相似距离方法构造一种情感分类算法,对句子进行情感倾向性分类,既考虑词语本身含义,又考虑词语在上下文中的含义。通过对书籍、电脑和酒店的评价进行实验,F值较高,同时与其他方法进行对比实验,体现文中算法的有效性。  相似文献   

11.
准确识别词语语义倾向并构建高质量的情感词典,从而提高微博文本情感分析的准确率,具有重要意义。传统的基于语料库方法对种子词选取敏感,并且不能有效对低频词语语义倾向进行识别。本文提出了一种基于词亲和度的微博词语语义倾向识别算法。利用词性组合模式提取候选词集,选取微博表情符号作为种子词,并构建词亲和度网络,利用同义词词林对低频词进行扩展,计算候选词与种子词之间语义倾向相似度。根据设定阈值判断词语语义倾向。在200万条微博语料上分别将本文算法与传统算法进行对比,实验结果表明本文算法优于传统算法。  相似文献   

12.
针对哈尔滨工业大学《同义词词林》扩展版的层次结构不能有效反映词语之间信息内容含量差异性的问题进行了研究,进行了《同义词词林》作为词语相似度计算本体的结构改造,增加了原编码信息结点的语义,提出了一种较为适合改造后本体的相似度计算策略,经实验证明,修改后的本体更能体现词语在本体中信息内容含量的差异性,提出的相似度计算策略应用在改进后的本体上时,得出的相似度计算结果准确程度达到了较高水平,具有较好的实用价值。  相似文献   

13.
针对专利搜索日志中同义词出现的特点,改进了词共现相似度算法,提出了一种基于专利搜索日志的同义词挖掘方法.利用专利搜索日志中同义词出现的规律挖掘同义词集的结构模板,根据这些模板抽取出候选同义词集,利用改进的词共现方法计算词汇相似度.对称共现的词对正确率达到85.66%,召回率达到78.98%,F值0.82.该方法可用于专利搜索引擎中提高专利检索的效率.  相似文献   

14.
语义蕴含识别旨在检测和判断两个语句的语义是否一致,以及是否存在蕴含关系.然而现有方法通常面临中文同义词、一词多义现象困扰和长文本难理解的挑战.针对上述问题,本文提出了一种基于Transformer和HowNet义原知识融合的双驱动中文语义蕴含识别方法,首先通过Transformer对中文语句内部结构语义信息进行多层次编码和数据驱动,并引入外部知识库HowNet进行知识驱动建模词汇之间的义原知识关联,然后利用soft-attention进行交互注意力计算并与义原矩阵实现知识融合,最后用BiLSTM进一步编码文本概念层语义信息并推理判别语义一致性和蕴含关系.本文所提出的方法通过引入HowNet义原知识手段解决多义词及同义词困扰,通过Transformer策略解决长文本挑战问题.在BQ、AFQMC、PAWSX等金融和多语义释义对数据集上的实验结果表明,与DSSM、MwAN、DRCN等轻量化模型以及ERNIE等预训练模型相比,该模型不仅可以有效提升中文语义蕴含识别的准确率(相比DSSM模型提升2.19%),控制模型的参数量(16 M),还能适应50字及以上的长文本蕴含识别场景.  相似文献   

15.
该文提出了一种基于路径与深度的同义词词林词语语义相似度计算方法。该方法通过两个词语义项之间的最短路径以及它们的最近公共父结点在层次树中的深度计算出两个词语义项的相似度。在处理两个词语义项的最短路径与其最近公共父结点的深度时,为提高路径与深度计算的合理性,为分类树中不同层之间的边赋予不同的权值,同时通过两个义项在其最近公共父结点中的分支间距动态调节词语义项间的最短路径,从而平衡两个词语的相似度。该方法修正了目前相关算法只能得出几个固定的相似度值,所有最近公共父结点处于同一层次的义项对之间的相似度都相同的不合理现象,使词语语义相似度的计算结果更为合理。实验表明,该方法对MC30词对的相似度计算值与人工判定值相比,取得了0.856的皮尔逊相关系数,该结果高于目前大多数词语相似度算法与MC30的相关度。
  相似文献   

16.
HowNet是一个大规模高质量的跨语言(中英)常识知识库,蕴含着丰富的语义信息。该文利用知识图谱领域的方法将HowNet复杂的结构层层拆解,得到了知识图谱形式的HownetGraph,进而利用网络表示学习以及知识表示学习方法得到了跨语言(中、英)、跨语义单位(字词、义项、DEF_CONCEPT和义原)的向量表示,在词语相似度(word similarity)和词语类比(word analogy)任务上对中英文数据集进行了实验,实验结果显示该文提出的方法在词语语义相似度的任务上取得了最好效果。  相似文献   

17.
分布式词表示学习旨在用神经网络框架训练得到低维、压缩、稠密的词语表示向量。然而,这类基于神经网络的词表示模型有以下不足: (1) 罕见词由于缺乏充分上下文训练数据,训练所得的罕见词向量表示不能充分地反映其在语料中的语义信息; (2) 中心词语的反义词出现于上下文时,会使意义完全相反的词却赋予更近的空间向量表示; (3) 互为同义词的词语均未出现于对方的上下文中,致使该类同义词学习得到的表示在向量空间中距离较远。基于以上三点,该文提出了一种基于多源信息融合的分布式词表示学习算法(MSWE),主要做了4个方面的改进: (1) 通过显式地构建词语的上下文特征矩阵,保留了罕见词及其上下文词语在语言训练模型中的共现信息可以较准确地反映出词语结构所投影出的结构语义关联; (2) 通过词语的描述或解释文本,构建词语的属性语义特征矩阵,可有效地弥补因为上下文结构特征稀疏而导致的训练不充分; (3) 通过使用同义词与反义词信息,构建了词语的同义词与反义词特征矩阵,使得同义词在词向量空间中具有较近的空间距离,而反义词则在词向量空间中具有较远的空间距离; (4) 通过诱导矩阵补全算法融合多源特征矩阵,训练得到词语低维度的表示向量。实验结果表明,该文提出的MSWE算法能够有效地从多源词语特征矩阵中学习到有效的特征因子,在6个词语相似度评测数据集上表现出了优异的性能。  相似文献   

18.
汉语词语语义相似度计算研究   总被引:12,自引:0,他引:12       下载免费PDF全文
夏天 《计算机工程》2007,33(6):191-194
汉语词语的语义相似度计算是中文信息处理中的一个关键问题。该文提出了一种基于知网、面向语义、可扩展的相似度计算新方法,该方法从信息论的角度出发,定义了知网义原间的相似度计算公式,通过对未登录词进行概念切分和语义自动生成,解决了未登录词无法参与语义计算的难题,实现了任意词语在语义层面上的相似度计算。针对同义词词林的实验结果表明,该方法的准确率比现有方法高出近15个百分点。  相似文献   

19.
程传鹏  齐晖 《计算机工程》2012,38(5):288-290
针对传统主观题自动评分准确度低的问题,提出一种基于文本相似度计算的主观题评分方法。利用扩展的《同义词词林》计算词语之间的相似度,根据标准答案中的词语和学生答卷中的词语以及词语之间的相似度构造二部图,通过二部图的最大匹配算法获得标准答案和学生答案的相似度。实验结果表明,该方法可以给主观题评分提供一个较好的参考。  相似文献   

20.
同义词挖掘是自然语言处理领域中的一个基础任务,而同义词对的判别是该任务的一个重要部分。传统两大类方法,基于分布式表示和基于模板的方法,分别利用了语料的全局统计信息和局部统计信息,只能在精确率和召回率中权衡。随着预训练词向量技术的发展,基于分布式表示的方法存在一种简单高效的方案,即直接对预训练好的词向量计算相似度,将此表示为语义相似度。然而,这样的思路并没有利用到现有的同义词对这一外部知识。该文提出基于《同义词词林》的词向量微调方法,利用同义词对信息,增强预训练词向量的语义表示。经过实验,该微调方法能很好地完成同义词对的判别。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号