首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 406 毫秒
1.
本文探讨了如何利用领域文本集来自动构建领域本体的技术,以辅助知识工程师方便快捷地构建领域本体.文中提出一种利用概念之间的语义相似度,通过蚁群聚类算法对概念集进行聚类,最后利用知网的义原层次结构抽取分类关系的算法,通过非对称簇分析函数评价概念间的关联度,以提取非分类关系,最终生成领域本体.实验证明了该本体学习系统的有效性.  相似文献   

2.
基于叙词表的领域本体构建方法研究   总被引:1,自引:0,他引:1  
提出了一种利用现有术语丰富的叙词表构建领域本体的方法,该方法可以减少构建领域本体的工作量.通过基于<农业科学叙词表>构建果树学领域本体的实例,对一种基于叙词表的领域本体构建方法的设计过程进行了详细叙述,该方法分为3个阶段,即领域本体的信息收集和分析、领域本体的详细设计、领域本体的表示,其中详细设计是核心,该阶段将叙词表中出现的核心词汇、语义关系转化到本体中,并补充了更丰富的语义关系.  相似文献   

3.
针对文字直播自动摘要的新闻稿存在背景信息缺乏、难以引起读者兴趣等不足,该文提出一种NBA赛事新闻的自动生成方法。采用该文提出的关键事件抽取算法从文字直播数据中抽取事件点、匹配突出关键事件的模板来生成新闻初稿,再从构建的NBA赛事知识图谱中提取背景信息和描述重点,自动生成最终的新闻稿。该文构建并公开的NBA赛事领域知识图谱,包含3个概念类、4种关系和27个属性,共有5 893个实体节点。对实验生成的新闻结果随机选取了50场赛事进行了主客观评测。评测结果表明,该文提出的融合知识图谱的新闻自动写作方法有效解决了背景信息缺乏和新闻要素嵌入问题,知识图谱的使用能明显提升所生成的新闻的质量,并可支持新闻的深度阅读。  相似文献   

4.
张宁豫  谢辛  陈想  邓淑敏  叶宏彬  陈华钧 《软件学报》2022,33(10):3531-3545
知识图谱补全能让知识图谱变得更加完整.现有的知识图谱补全工作大多会假设知识图谱中的实体或关系有充足的三元组实例.然而,在通用领域,存在大量长尾三元组;在垂直领域,较难获得大量高质量的标注数据.本文针对这一问题,提出了一种基于知识协同微调的低资源知识图谱补全方法.本文通过已有的结构化知识来构造初始的知识图谱补全提示,并提出一种协同微调算法来学习最优的模板、标签和模型的参数.本文的方法同时利用了知识图谱中的显式结构化知识和语言模型中的隐式事实知识,且可以同时应用于链接预测和关系抽取两种任务.实验表明,本文的方法在3个知识图谱推理数据集和5个关系抽取数据集上都取得了目前最优的性能.  相似文献   

5.
关系抽取是构建知识图谱的一项核心技术.由于中文具有复杂的语法和句式,同时现有的神经网络模型提取特征有限以及语义表征能力较差,从而影响中文实体关系抽取的性能.文章提出了一种融合多特征的BERT预训练模型的实体关系抽取算法.首先对语料进行预处理,提取关键词、实体对信息和实体类型特征并进行融合,以此来强化BERT模型的语义学习能力,极大限度地减少了语义信息特征的丢失,最后通过Softmax分类器进行关系分类.实验结果表明,文章模型优于现有的神经网络模型.在人工标注的中文数据集上本文模型取得了97.50%的F1值.  相似文献   

6.
随着互联网的快速发展,基于关键词字面匹配的信息检索方式已不能满足人们的需求。叙词表中所包含的语义关系是提高查全率和查准率的重要途径,如果将叙词表控制机制引入当前网络信息检索工具中,必然能在一定程度上提高信息检索的效率。利用叙词表中的词间关系,提出了一种计算叙词间语义相似度的方法,借助查询扩展的思想,设计了一种基于叙词表的林业信息语义检索模型。最后,以林业汉英拉叙词表中两个类目范畴作为实验对象,分别同百度搜索引擎、农业叙词表中所使用的检索方法进行了比较,实验结果表明,提出的检索模型可以更好地利用叙词表来改进传统的基于关键字的检索方式,此外,所提模型是通用的,为叙词表在网络信息系统中的应用提供了一种新的思路。  相似文献   

7.
为解决碳交易领域数据集成问题,提出一种碳交易领域知识图谱的构建方法。针对碳交易领域的半结构化和非结构化数据,分别采用自定义的Web数据包装器和结合BiLSTM-CRF模型与依存句法分析的方法进行三元组抽取。然后将获取的知识转化为关联数据,得到完整的碳交易领域知识图谱,再利用基于Jena的fuseki实现对知识图谱的语义查询。实验结果表明,该方法能够为碳交易领域快速有效地构建知识图谱,并可以从碳交易领域的海量数据中检索出有用信息。  相似文献   

8.
刘柏嵩 《计算机工程》2008,34(8):229-231
提出一种通用的多策略本体学习框架,通过对Web上各专业领域文档集进行挖掘来实现本体自动构建。讨论本体学习中本体概念的抽取、概念之间语义关系的抽取和分类体系的自动构建等关键技术,通过实验对算法进行测试和评价。由于集成了多种机器学习算法,该方法在概念抽取和语义关系学习方面具有更高的准确性,采用通用本体WordNet和HowNet作为语料库,可适用于不同的专业领域。通过按需获取Web文档,该方法能实时生成本体。  相似文献   

9.
领域知识图谱在各行各业中都发挥着重要作用,领域实体的获取则是构建领域知识图谱的重要基础。数据标注、编写抽取规则等现有的实体抽取方法往往需要较多的人工参与工作。提出一种基于图排序的实体抽取方法和基于最大信息增益的实体扩展方法来构建领域实体集,通过实体识别获得候选实体,基于维基百科的背景信息计算候选实体间的相关度构建实体图,并利用基于置信度传播的图排序算法筛选领域核心实体。在DBpedia中根据最大信息增益来平衡类与领域核心实体相关性及类的抽象程度两个因素以生成实体扩展的共性类。在此基础上,通过SKOS体系中的“Is subject of”关系获得共性类的实例实体,并根据基于字符串相似和结构相关度的方法对扩展实例实体进一步筛选,最终获得全面、准确的领域实体集。以数据结构课程为例构建该课程领域实体集,得到1 115个实体。实验结果表明,在领域数据集上,领域实体抽取F1值达到0.67,能够在较少人工参与的条件下有效获得领域实体,有助于领域知识图谱的构建。  相似文献   

10.
大数据在提供海量多源信息的同时,也带来了信息过载问题,这在旅游领域内表现得尤为突出。针对当前游客在制定旅行路线时需要花费大量时间和精力的现状,首先,提出一种融合多源旅游数据构建知识图谱的方法,有效地抽取相关旅游领域知识;其次,利用知识图谱及大量旅行游记生成旅游路线数据库,并提出一种能够根据游客类型生成海量候选路线的频繁路线序列模式挖掘算法;最后,设计了一种多维度路线搜索和排序机制来为用户推荐个性化的旅游路线。基于真实旅游大数据的实验结果表明,该方法可以同时考虑旅行天数、人物类型和景点类型喜好等多方面因素,帮助游客快速制定个性化的旅行路线,有效提升游览体验。  相似文献   

11.
一种元路径下基于频繁模式的实体集扩展方法   总被引:1,自引:0,他引:1  
郑玉艳  田莹  石川 《软件学报》2018,29(10):2915-2930
实体集扩展是指,已知某个特定类别的几个种子实体,根据一定的规则得到该类别的更多的实体.作为一种经典的数据挖掘任务,实体集扩展已经有很多的应用,诸如字典建立、查询建议等.现有的实体集扩展主要是基于文本或网页信息,即实体之间的关系从其在文本或者网页中的共现来推断.随着知识图谱研究的兴起,根据知识图谱中知识的共现来研究实体集扩展也成为了一种可能.本文主要研究知识图谱中的实体集扩展问题,即给定几个种子实体,利用知识图谱来得到更多的同类别的实体.我们首先把知识图谱建模成一个异质信息网络,即含有多种实体类型或者关系类型的网络,提出了一种新的元路径下基于频繁模式的实体集扩展方法,称为FPMP_ESE.FPMP_ESE采用异质信息网络中的元路径来捕捉种子实体之间的潜在共同特征.,为了找到种子实体之间的重要的元路径,我们设计了一种新的基于频繁模式的元路径自动产生算法FPMPG.之后,为了更好地给每条元路径分配相应的权重,我们设计了启发式的方法和PU learning的方法.最后,在真实数据集Yago上的实验,验证了提出方法较其他方法在实体集扩展任务上具有更好地性能以及更高地效率.  相似文献   

12.
具有概念联想功能的特定领域分词词典的自动构建   总被引:3,自引:0,他引:3  
张彦  邵志清 《计算机工程》2004,30(20):148-150
提出了一种基于PAT树型结构的高频字串提取的改进算法。并以此用来获得特定领域网页中的未登录词集合,利用基于语义距离的概念相似度计算公式来获得任一概念的相关概念,从而给出了用于特定领域搜索引擎的语义词典完整的自动构建方法。将生成的语义词典用于搜索引擎FlyingScnder中。实验结果证明新的词典比原有的手工构建的词典分词效果要理想得多。而且提供了概念联想的功能。  相似文献   

13.
智能化软件开发正在经历从简单的代码检索到语义赋能的代码自动生成的转变,传统的语义表达方式无法有效地支撑人、机器和代码之间的语义交互,探索机器可理解的语义表达机制迫在眉睫.首先指出了代码知识图谱是实现智能化软件开发的基础,进而分析了大数据时代智能化软件开发的新特点以及基于代码知识图谱进行智能化软件开发的新挑战;随后回顾了智能化软件开发和代码知识图谱的研究现状,指出了现有智能化软件开发的研究仍然处于较低水平,而现有知识图谱的研究主要面向开放领域知识图谱,无法直接应用于代码领域知识图谱.因此,从代码知识图谱的建模与表示、构建与精化、存储与演化管理、查询语义理解以及智能化应用这5个方面详细探讨了研究新趋势,以更好地满足基于代码知识图谱进行智能化软件开发的需要.  相似文献   

14.
With question answering system in medicine, users could use sentences in daily life to raise questions. The question answering system will analyze and comprehend these questions and return answers to users directly. Aiming at the problems in automatic diagnosis for medicine, such as low precision of question answering, imperfect expression of domain knowledge, low reuse rate, and lack of reasonable theory reference models, we put forward the information integration method of semantic Web based on pervasive agent ontology (SWPAO method) in medicine, which will integrate, analyze, and process enormous Web information and extract answers on the basis of semantics. A novel approach for automatic diagnosis in medicine based on ontology and fuzzy rough set is brought forward. The data mining algorithm for automatic diagnosis rules in medicine is brought forward: (1) computing the measurement matrix of effect; (2) extracting rules; (3) computing the importance of rules; (4) shearing the rules by genetic algorithm. In this paper, rough sets method is used to take potential diagnosis rule from the decision‐making table in medicine. These rules can offer effective automatic diagnosis service. With the SWPAO method as the clue, we mainly study the method of concept extraction based on uniform semantic term mining, pervasive agent ontology construction method on account of multipoints and the answer extraction in view of semantic inference. Meanwhile, we present the structural model of the question answering system applying ontology, which adopts OWL language to describe domain knowledge base from where it infers and extracts answers by Jena inference engine, thus the precision of question answering in QA system could be improved. In the system testing, the precision has reached 86% and the recalling rate is 93%. The experiment indicates that this method is feasible, and it has the significance of reference and value of further study for the question answering systems in medicine. © 2010 Wiley Periodicals, Inc.  相似文献   

15.
Course dependence graph of subject can provide an important reference model for the automatic arrangement for subject teaching plan, effective online subject learning and subject resource recommendation. Nevertheless, the challenges of the course dependence graph on the automatic construction and the maintenance of its objectivity seriously restrict its popularity. Hence, this paper proposes an approach utilizing association semantic link model for automatically constructing course dependence graph. The proposed approach employs construction of the semantic link of fragment course information resources and the association mining method to build course dependence graph. The main task of the approach can be roughly divided into the extraction of semantic key terms, the knowledge representation of course semantic and subject semantic and constructing course dependence graph. The advantages of the proposed approach are that it promotes the automation of constructing course dependence graph, defending its objectivity and getting the service of the course dependence graph smarter. The experiments show that the proposed approach has rationality and validity.  相似文献   

16.
基于联合知识表示学习的多模态实体对齐   总被引:1,自引:0,他引:1  
王会勇  论兵  张晓明  孙晓领 《控制与决策》2020,35(12):2855-2864
基于知识表示学习的实体对齐方法是将多个知识图谱嵌入到低维语义空间,通过计算实体向量之间的相似度实现对齐.现有方法往往关注文本信息而忽视图像信息,导致图像中实体特征信息未得到有效利用.对此,提出一种基于联合知识表示学习的多模态实体对齐方法(ITMEA).该方法联合多模态(图像、文本)数据,采用TransE与TransD相结合的知识表示学习模型,使多模态数据能够嵌入到统一低维语义空间.在低维语义空间中迭代地学习已对齐多模态实体之间的关系,从而实现多模态数据的实体对齐.实验结果表明,ITMEA在WN18-IMG数据集中能够较好地实现多模态实体对齐.  相似文献   

17.
Automated subject indexing and the coordination of indexing with natural language search interfaces could provide solutions to some of the information retrieval problems facing the medical field today. This paper describes the construction of such an interface using semantic net expansion and a clinical neuroscience thesaurus, which provided a specialized vocabulary for use in both automated indexing of MEDLINE articles and an "intelligent" front-end for database searching. Though reviewed by a domain expert, the thesaurus was successfully built by nonexperts utilizing a set of rules. We report on testing thesaurus content and semantic net accuracy using a database of selected MEDLINE article abstracts.  相似文献   

18.
19.
The paper presents an automatic acquisition of linguistic patterns that can be used for knowledge based information extraction from texts. In knowledge based information extraction, linguistic patterns play a central role in the recognition and classification of input texts. Although the knowledge based approach has been proved effective for information extraction on limited domains, there are difficulties in construction of a large number of domain specific linguistic patterns. Manual creation of patterns is time consuming and error prone, even for a small application domain. To solve the scalability and the portability problem, an automatic acquisition of patterns must be provided. We present the PALKA (Parallel Automatic Linguistic Knowledge Acquisition) system that acquires linguistic patterns from a set of domain specific training texts and their desired outputs. A specialized representation of patterns called FP structures has been defined. Patterns are constructed in the form of FP structures from training texts, and the acquired patterns are tuned further through the generalization of semantic constraints. Inductive learning mechanism is applied in the generalization step. The PALKA system has been used to generate patterns for our information extraction system developed for the fourth Message Understanding Conference (MUC-4)  相似文献   

20.
命名实体消歧是将自然语言文本中具有歧义的实体指称正确地映射到知识库中相应实体上的过程。现有命名实体消歧技术大多采用集体消歧,以利用更多的语义信息达到更高的精度,但存在效率偏低的问题。为此,提出一种基于领域的命名实体消歧方法,通过引入领域的概念来丰富特征集合,并利用特征集构建实体指称-候选实体的依赖图以实现集体消歧。在构建依赖图的过程中,在现有构造方法的基础上,利用实体指称间的关系在实体指称侧建立联系,进而完善整个依赖图的结构并间接地优化算法处理顺序。在真实评测数据集上的实验结果表明,这种方法比其他同类的方法具有更高的效率和准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号