首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 609 毫秒
1.
提出了一种词汇和本体概念间的语义相似度计算方法。该方法利用编辑距离和维基百科从语法和语义两方面综合考虑词汇和概念间的语义相似度。在领域本体的指导下,将方法应用于语义标注过程,建立词汇与本体概念之间的映射。在标注过程中建立知识库,提高算法性能,实验结果说明该方法是行之有效的。  相似文献   

2.
一种改进的面向文本的领域概念筛选算法   总被引:1,自引:0,他引:1  
在语义技术及其应用中,本体学习是一个研究热点,而领域概念筛选则是本体学习的基础。对于领域概念筛选问题,领域一致度与领域相关度相结合的方法效果较好,却也存在信息描述不全的缺点,因此提出了一种针对此问题的改进的领域概念筛选算法。通过计算候选概念之间的语义相似度,识别出低频的具有同义关系和整体一部分关系的词语集,过滤掉部分冗余概念,然后采用改进的领域相关度和领域一致度相结合的公式进行筛选。实验表明,该方法提高了领域概念筛选的有效性。  相似文献   

3.
本体学习已成为计算机领域的一个研究热点,目前本体学习的研究重点在于概念及关系的提取。针对现有学习方法准确率不高,提出一种结合对数似然比(Log-Likelihood Ratio,LLR)的本体学习方法,采用对数似然比计算概念与领域及概念与概念之间的相关性,将其应用到概念与关系提取中。实验结果表明,结合对数似然比的学习方法能够有效改进概念和关系提取的准确度。  相似文献   

4.
提出一种基于领域本题概念相似度计算的语义Web服务发现方法。给出合理的概念相似度计算公式,通过领域本体概念相似度计算,最终获得请求和候选服务之间的相似度。传统的概念相似度计算方法只考虑继承关系,本文采用的单概念语义不但考虑继承关系,还考虑二元关系,使本体关系结构构成图结构,更加合理。计算语义距离时,适当处理多继承问题和环问题。实验证实,本算法使得匹配更加合理精确。  相似文献   

5.
基于本体的概念相似度计算   总被引:11,自引:2,他引:9       下载免费PDF全文
概念相似度的计算是信息检索领域的研究热点。本体在信息检索和人工智能领域的广泛应用,为概念相似度计算带来新的方法。该文提出一种利用本体来计算概念间相似度的方法,综合考虑语义距离和本体库统计特征。加入概念的深度、语义重合度和概念间强度的辅助影响。实验结果表明,该方法对概念相似度的计算有效,可应用于面向Web的信息检索。  相似文献   

6.
唐宋诗中词汇语义相似度的统计分析及应用   总被引:20,自引:0,他引:20  
基于上下文的词汇向量空间模型可以用来近似地描述词汇的语义。在此基础上定义的词汇相似关系或聚类关系可以应用于词典编纂、智能搜索引擎的开发等许多领域。本研究基于640万字的唐宋诗语料。在进行多字词计算机辅助提取的基础上,定义了相应的词汇语义的统计表达。建立了词汇相似关系的语义网络。开发了具有词义联想功能的面向概念的唐宋诗搜索引擎。实验表明,达到了接近实用的水平。  相似文献   

7.
从Web中提取中文本体非分类关系的方法   总被引:2,自引:0,他引:2  
为了有效地学习本体中的非分类关系以协助知识工程师构建领域本体,提出了一种在中文领域本体学习环境中自动获取概念之间非分类关系的方法,该方法以Web为数据源来提取候选关系并计算信息分布的统计特征,把动词作为发现非分类关系的中心点,把领域相关的动词作为种子来检索领域相关概念并用来标记相应的关系.该方法的学习结果是一个多级分类关系和非分类关系组成的语义体系.最后,通过对"癌"本体相应关系的提取及其性能分析,表明了该方法的学习结果和性能.  相似文献   

8.
相较于传统的依托词汇频率大小进行关键字提取技术,TextRank算法能够考虑词汇节点之间的相似性信息,却仍忽略了词汇上下文信息以及文章的语义结构等。在节点图权重迭代的基础上,本文利用文本上下文词汇的关联规则信息,引入关联熵的概念,自适应调整阻尼系数和滑动窗口大小,更贴近文本词汇的实际语义情况,能够较好地处理低词频和新词汇信息。实验表明,相较于TFIDF和TR等算法,本文算法在处理关键字提取时能够达到更准确的效果。  相似文献   

9.
基于语义的关键词提取算法   总被引:3,自引:1,他引:2  
关键词1提供了文档内容的概要信息,它们被使用在很多数据挖掘的应用中,在目前的关键词提取算法中,我们发现词汇层面(代表意思的词)和概念层面(意思本身)的差别导致了关键字提取的不准确,比如不同语法的词可能有着相同的意思,而相同语法的词在不同的上下文有着不同的意思.为了解决这个问题,这篇文章提出使用词义代替词并且通过考虑关键候选词的语义信息来提高关键词提取算法性能的方法.与现有的关键词提取方法不同,该方法首先通过使用消歧算法,通过上下文得到候选词的词义;然后在后面的词合并、特征提取和评估的步骤中,候选词义之间的语义相关度被用来提高算法的性能.在评估算法时,我们采用一种更为有效的基于语义的评估方法与著名的Kea系统作比较.在不同领域间的实验中可以发现,当考虑语义信息后,关键词提取算法的性能能够得到很大的提高.在同领域的实验中,我们的算法的性能与Kea 算法的相近.我们的算法没有领域的限制性,因此具有更好的应用前景.  相似文献   

10.
为提高网页内容与特定主题之间相关度计算的准确度,提出一种基于领域本体的网页主题相关度计算模型OBWTCCM(ontology based webpage-topic correlation calculation model)。使用领域本体刻画主题,通过计算本体概念间的语义关系提取主题概念并构造主题语义矩阵,将特征词的统计信息与该矩阵相结合计算网页与主题之间的相关度。该模型改进了向量空间模型在相关度计算时对特征词语义层次分析的不足。实际项目应用结果表明,使用该方法计算得到的网页主题相关度与领域专家的判断总体相符,具有较理想的准确度。  相似文献   

11.
为了提高中文领域本体概念抽取的自动化程度及准确率,提出了一种基于动态权值的多策略中文领域本体概念自动抽取方法。针对中文领域本体概念的特点,采用自动学习的规则学习模式,筛选出候选概念,将改进的DR&DC、TF-IDF和NC-Value三种策略融合,对候选概念进行领域归属度排序,将最终权重超过阈值的概念存入最终概念集合。实验证明了该方法抽取领域概念的可行性和有效性。  相似文献   

12.
Key concept extraction is a major step for ontology learning that aims to build an ontology by identifying relevant domain concepts and their semantic relationships from a text corpus. The success of ontology development using key concept extraction strongly relies on the degree of relevance of the key concepts identified. If the identified key concepts are not closely relevant to the domain, the constructed ontology will not be able to correctly and fully represent the domain knowledge. In this paper, we propose a novel method, named CFinder, for key concept extraction. Given a text corpus in the target domain, CFinder first extracts noun phrases using their linguistic patterns based on Part-Of-Speech (POS) tags as candidates for key concepts. To calculate the weights (or importance) of these candidates within the domain, CFinder combines their statistical knowledge and domain-specific knowledge indicating their relative importance within the domain. The calculated weights are further enhanced by considering an inner structural pattern of the candidates. The effectiveness of CFinder is evaluated with a recently developed ontology for the domain of ‘emergency management for mass gatherings’ against the state-of-the-art methods for key concept extraction including—Text2Onto, KP-Miner and Moki. The comparative evaluation results show that CFinder statistically significantly outperforms all the three methods in terms of F-measure and average precision.  相似文献   

13.
开发基于生物医学文献的抑郁症药物本体自动学习技术,对于抑郁症辅助诊疗有着重要的指导意义。概念抽取是面向文本的本体学习的基础。然而,现有的本体概念抽取算法在解决特定、细粒度领域的概念抽取问题时性能较差。借鉴传统的领域相关性及领域一致性的思想,综合使用对数似然比和领域关联函数进行抑郁症药物领域的概念抽取。实验结果表明,该算法能够降低抑郁症其他相关领域对概念抽取的影响,同时改善低频术语的领域隶属度计算,提高了准召率。  相似文献   

14.
现有领域本体概念上下位关系抽取方法受到手工标注和特定模式的限制。针对该问题,提出一种基于层叠条件随机场的领域本体概念上下位关系抽取方法。以自由文本为抽取对象,采用两层条件随机场算法,将训练数据处理成条件随机场能识别的线性结构。低层条件随机场模型考虑词之间的长距离依赖,对词进行建模,识别出领域概念并对概念进行顺序组合,结合模板定义特征得到概念对;高层模型对成对概念进行上下位语义标注,识别出领域本体概念之间的上下位关系。采用真实语料进行实验,结果表明,该方法具有较好的识别效果。  相似文献   

15.
马超 《计算机系统应用》2015,24(12):273-276
领域本体是对领域概念及其关系的一种高效合理的展现形式.在构建领域本体过程中,常常遇到的问题就是尽管本体概念完备但概念间关系复杂多样导致人工标记关系代价过高.使用无监督学习的关系抽取算法对包含丰富的领域概念的web信息进行抽取解决了这一问题.然而,传统的无监督学习的算法没有考虑到"单样例多概念对"的问题,导致最终抽取的概念关系不完整.本文利用交通领域的Web信息构建本体,将样例概念关系对权重引入传统的无监督学习方法Kmeans中,解决了此项问题并通过实验证明该算法取得了良好的效果.  相似文献   

16.
招投标网站资源中蕴含着丰富的情报信息。“远程监督”方法借助知识库自动标注数据,弥补了传统信息抽取方法在语料准备阶段对人工强依赖的缺陷,可有效提高信息抽取效率。该方法会引入噪声数据,导致信息抽取效果不够理想。因此,提出一种基于因子图模型的远程监督实体关系抽取方法,并结合领域特征,采用知识融合技术提高实体抽取质量,进而针对远程监督的缺陷提出基于负例数据学习的降噪方法。实验结果表明,该方法能够有效减少“噪声”干扰,提高关系抽取性能。  相似文献   

17.
针对民航突发事件领域本体关系抽取准确率低的问题,提出了一种结合注意力机制与双向门控循环单元(BiGRU)的关系抽取模型。首先查询预先训练的词向量矩阵,将文本中每个词语映射为向量表示;其次构建BiGRU,得到词语序列的上下文语义信息;然后在词语层面和句子层面分别引入注意力机制,为表达语义关系更重要的词语和句子分配更大的权重;最后进行模型的训练与优化。将该模型应用在民航突发事件领域本体的关系提取中,实验结果表明该模型相较于其他方法具有更好的提取效果,验证了该模型的有效性,为民航突发事件领域本体关系的自动获取提供了新的方法支持。  相似文献   

18.
为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架.对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文档存储等技术进行了分析设计,提出了文本转换中的分词及词表查询和命名实体识别算法,并给出了一种知识抽取方案.实验结果表明,该方法可以得到性能较高的抽取结果.  相似文献   

19.
目前关系抽取方法中,传统深度学习方法存在长距离依赖问题,并且未考虑模型输入与输出的相关性。针对以上问题,提出了一种将LSTM模型(Long Short-term memory)与注意力机制(Attention Mechanism)相结合的关系抽取方法。首先将文本信息向量化,提取文本局部特征;然后将文本局部特征导入双向LSTM模型中,通过注意力机制对LSTM模型的输入与输出之间的相关性进行重要度计算,根据重要度获取文本整体特征;最后将局部特征和整体特征进行特征融合,通过分类器输出分类结果。在SemEval-2010 Task 8语料库上的实验结果表明,该方法的准确率和稳定性较传统深度学习方法有进一步提高,为自动问答、信息检索以及本体学习等领域提供了方法支持。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号