首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 49 毫秒
1.
基于聚类方法对特定领域术语的自动筛选   总被引:1,自引:0,他引:1  
从大规模无标注的文本中获取特定领域的术语词典,通常采用的方法是从术语抽取器得到相关术语,而后使用手工的方式进行术语筛选,得到相关领域的术语。这需要大量的人力物力,并且标准无法统一。本文提出了一种利用CBC聚类方法从抽取的术语文本中自动别除非此领域的术语,并且通过对训练语料库文本的不断丰富,还可以对新词进行
识别,以扩大该领域的术语集。最后,通过对实验结果进行评测,显示了CBC聚类方法对术语筛选的良好效果。  相似文献   

2.
特定领域本体的构造方法   总被引:5,自引:1,他引:5       下载免费PDF全文
提出了一种领域本体构造方法OntoMerge,通过该方法构造得到领域本体,再利用领域本体对构件进行本体描述。基于本体、面向服务的构件描述,具有语义推理功能,能极大地提高构件检索的查全率和查准率,并为构件入库、检索、组装等工作奠定基础。  相似文献   

3.
4.
农业领域本体的构建将为农业垂直搜索引擎提供知识组织基础。在对本体构建技术进行深入研究的基础上,设计实现基于文献的农业领域本体构建方法。使用Web数据抽取技术获取农业文献,通过对文献分词和清洗,自动提取领域概念,并用关联分析和改进的层次聚类发现领域概念间关系,构建农业领域本体。通过实验验证,该方法提高了领域概念间关系聚类效果和领域本体构建效果。最后加以应用实施,实现了基于本体的农业垂直搜索引擎。  相似文献   

5.
本文提出了一种规则与统计相结合的方法,针对计算机领域术语综合其领域术语特征和统计特征。算法在语料词性标注基础上,在原有词串扩展算法上糅合领域术语部件和领域术语特征获取候选术语。综合统计特征G-MI实现候选术语过滤。实验证明,算法能有效提高术语抽取的正确率和抽取效率。  相似文献   

6.
中文领域本体学习中术语的自动抽取*   总被引:3,自引:0,他引:3  
提出一种领域术语自动抽取的混合策略,首先进行多字词候选术语抽取和分词,然后合并其结果,最后通过领域相关度和领域主题一致度抽取出最终领域术语。在多字词抽取和最终领域术语抽取阶段分别对现有方法进行了改进,降低了字符串分解的时间复杂度并提高了领域术语抽取的准确率和召回率。实验表明,术语抽取准确率为90.64%,优于现有的抽取方法。  相似文献   

7.
针对电力监控系统面临的网络安全问题实际需求,开展了本体自动构建技术研究,以现有的领域本体自动化构建技术为基础,从非结构化文本数据提取出电网安全监测领域本体SafeAgent,采用机器学习、自然语言处理、关联规则等方法抽取本体概念,挖掘概念之间的关系,完善了领域本体自动化构建方案.经实验验证,本文采用的方法能以较高准确率...  相似文献   

8.
针对手工构建本体工作量大、效率低以及更新维护困难等问题,文章提出了一种中文环境下多策略本体学习方法。使用统计分析和语义关联抽取术语,并利用构词模式发现分类关系,针对不同类型的非分类关系,分别采用句法模式、统计方法和基于规则方法,从而解决了现有本体学习方法对词典依赖性、处理中文效果差等问题。实验结果表明,该方法有较好地有效性和稳定性。  相似文献   

9.
自动化地获取网络资源中的领域本体可以缩短本体的构建周期,但自动化的本体扩充还是本体工程中的一个挑战,其难点主要在于如何抽取术语并在新术语和已有本体之间建立映射关系。为此,提出了一个基于启发式规则的本体自动化扩充方法。该方法从网络资源中抽取自然语言文本,结合自然语言处理技术进行文本预处理,采用优先匹配对象属性的方式挖掘领域知识术语,然后通过启发式规则匹配术语的方式进行本体扩充,最后进行一致性检测。采用上述方法实现了一个基于Web的本体扩充工具。以城市景观信息核心本体作为研究案例进行了实验,结果显示本方法在扩充实例时具有较高的查准率和查全率,表明其具有有效性和可行性。  相似文献   

10.
手工构建本体是一项既费时又费力的工作,为解决此项工作的瓶颈问题,本体自动构建成为当前的一个研究热点和重点。考虑到不同语言描述的本体在本质上是相同的,只是表层的表示符号不同,提出了一种基于本体翻译的领域本体自动构建算法,该算法针对已存在本体中概念标签的不同情况,分别采用不同的统计指标来筛选标签的目标语翻译。通过将一个英文金融本体翻译成中文对算法进行了实验验证,说明了算法的有效性。  相似文献   

11.
本体学习已成为计算机领域的一个研究热点,目前本体学习的研究重点在于概念及关系的提取。针对现有学习方法准确率不高,提出一种结合对数似然比(Log-Likelihood Ratio,LLR)的本体学习方法,采用对数似然比计算概念与领域及概念与概念之间的相关性,将其应用到概念与关系提取中。实验结果表明,结合对数似然比的学习方法能够有效改进概念和关系提取的准确度。  相似文献   

12.
基于Web数据的本体概念抽取   总被引:1,自引:0,他引:1  
本体论(Ontology)在知识管理及语义网(Semantic Web)中越来越重要,但建造本体往往需要耗费大量的时间,且建造完成后本体的维护对知识管理者来说也是费时的工作。自动创建领域Ontology可以克服手工方法的不足,成为当前的研究热点之一;而概念是本体中最重要的组成部分之一,从半结构化的Web文档中自动抽取概念的效率和准确度的高低,直接决定了自动建造的本体的质量,提出一种自动的本体概念抽取模型,此模型不依赖于领域词典或核心本体,并且能达到快速有效地通过对中文Web文本挖掘自动地构建及更新领域本体概念的目的。  相似文献   

13.
领域Ontology的自动丰富——基于ADL地名表的实例研究   总被引:1,自引:0,他引:1  
葛宁  王军 《计算机科学》2007,34(9):156-162
本文以一个地理特征词表(Feature Type Thesaurus,F1T)为研究实例,提出了一种对领域Ontology进行自动丰富的方法。FTT描述了200多种地理特征类型,依照等级结构组织,用于标引和组织美国亚历山大数字图书馆地名表(ADL Gazetteer)中的6百万个地名。为了对F1可进行自动丰富,(1)首先从地名中抽取和发现有检索价值的、表示地理特征类型的通用词;(2)根据它们和标引主题词间的同现关系,在相同词族词汇的聚类过程中,确定与之相对应的主题词,进而将提取出的通用词定位到F1T的等级结构中。充分利用已经存在的大量标引语料,实现通用词的定位分析是核心内容,并且实验结果证明有效性达到82.7%。这项研究的实质是从Ontology标引的语料库中自动提取领域知识和标引知识,达到对Ontology的自动丰富。这一方法可以应用到类似的语料库和知识库上,实现新术语的发现、Ontology自丰富及其互操作。  相似文献   

14.
15.
随着本体的应用日益广泛和深入,本体的规模也会变得越来越大。特定用户往往只对本体的某个部分子集感兴趣,没有必要操作巨大的本体,因此,从本体库中提取出用户感兴趣的子本体的需求非常迫切。针对已有研究的不足,提出了一种能够保存本体层次关系的用户的子本体提取和简化方法,方法只需要用户给出的兴趣概念集即可自动输出子本体,不需要更多的人工干预,节省了用户工作量。  相似文献   

16.
多信息源下本体自动抽取的实现*   总被引:1,自引:0,他引:1  
以关系型数据库、XML文件、HTML文件、一般文档为信息源,运用不同的方法分别将多信息源映射为概念图,并按照拟定的概念逻辑结构进行统一存储,最后运用抽取算法实现本体的自动抽取.  相似文献   

17.
术语抽取从非结构化文本中自动抽取专业术语。该工作在中文分词、信息抽取、知识库构建中发挥着重要的作用。当前术语抽取方法很大程度上依赖于词的统计信息,由于基础教育学科中术语具有极强的长尾特性,导致基于统计的术语抽取方法很难抽取出处于尾端的术语。该文结合基础教育的学科特点,提出了DRTE: 一种利用术语定义与术语关系挖掘,综合构词规则与边界检测的术语抽取方法。该文以初高中的数学课本为数据源进行术语抽取,实验结果表明我们的术语抽取方法F1值达到82.7%,相比目前的方法提高了40.8%,能够有效地在中文基础教育领域进行自动化的术语抽取。  相似文献   

18.
随着信息技术的高速发展,信息处理已经成为目前最重要的研究内容,如何从大量的相关信息中获取我们需要的且相对准确的信息已经成为当前社会的一大难题。本文针对这一问题展开研究,通过对大量评语文本的分析,提出了一种基于本体的综合评价文本自动生成的方法,可以快速处理大量评语文本,从而自动获取相应的综合评价文本。  相似文献   

19.
利用本体簇生成标准概念模式   总被引:5,自引:0,他引:5  
提出了一种标准概念模式的生成方法,为概念模式的复用提供了一种新的方法,其通过引入本体与本体族,对给定概念模式的语义完整性进行评估;然后,对符合完整性要求的概念模式采用量化手段进行处理,从而产生具有代表性的标准概念模式,该方法从语义与结构两个方面对概念模式进行处理,使产生的标准概念模式更具有复用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号

京公网安备 11010802026262号