首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 359 毫秒
1.
基于模板的上下位关系抽取是上下位关系自动获取的重要方法.目前学术界通常采用两类模板,但目前中文上下位关系抽取研究尚缺乏对这两类模板的客观比较.针对这一问题,提出基于大规模语料的匹配抽取和高质量人工标注,以实现对两类模板的优劣进行客观对比和评价,为上下位关系自动获取提供坚实基础.对于四种主流的上下位相关句型,在3800万...  相似文献   

2.
对海量文本语料进行上下位语义关系自动抽取是自然语言处理的重要内容,利用简单模式匹配方法抽取得到候选上下位关系后,对其进行验证过滤是难点问题。为此,分别通过对词汇语境相似度与布朗聚类相似度计算,提出一种结合语境相似度和布朗聚类相似度特征对候选下位词集合进行聚类的上下位关系验证方法。通过对少量已标注训练语料的语境相似度和布朗聚类相似度进行计算,得到验证模型和2种相似度的结合权重系数。该方法无需借助现有的词汇关系词典和知识库,可对上下位关系抽取结果进行有效过滤。在CCF NLP&2012词汇语义关系评测语料上进行实验,结果表明,与模式匹配和上下文比较等方法相比,该方法可使 F 值指标得到明显提升。  相似文献   

3.
现有领域本体概念上下位关系抽取方法受到手工标注和特定模式的限制。针对该问题,提出一种基于层叠条件随机场的领域本体概念上下位关系抽取方法。以自由文本为抽取对象,采用两层条件随机场算法,将训练数据处理成条件随机场能识别的线性结构。低层条件随机场模型考虑词之间的长距离依赖,对词进行建模,识别出领域概念并对概念进行顺序组合,结合模板定义特征得到概念对;高层模型对成对概念进行上下位语义标注,识别出领域本体概念之间的上下位关系。采用真实语料进行实验,结果表明,该方法具有较好的识别效果。  相似文献   

4.
实体上下位关系是构建领域知识图谱不可或缺的一种重要的语义关系,传统抽取上下位关系的方法大多不考虑关系的组织。提出一种结合词向量和Bootstrapping的方法来实现领域实体上下位关系的获取与组织。首先,选取旅游领域的种子语料集;然后,采用基于词向量的相似度计算方法对种子集中包含的上下位关系模式进行聚类,筛选出置信度高的模式并对未标注语料进行上下位关系识别,得到候选关系实例,同时选择置信度高的关系实例加入到种子集中,进行下一轮的迭代,直到得到所有的关系实例;最后,根据领域实体上下位关系对的向量偏移并结合领域实体层级关系的特点,采用映射的学习方法进行领域实体层级关系组织。实验结果表明,与传统的方法相比,所提方法的F值提高了近10%。  相似文献   

5.
蛋白质关系抽取研究对于生命科学各领域的研究具有广泛的应用价值。但是,基于机器学习的蛋白质关系抽取方法普遍停留在二元关系抽取,失去了丰富的关系类型信息,而基于规则的开放式信息抽取方法可以抽取完整的蛋白质关系(“蛋白质1,关系词,蛋白质2”),但是召回率较低。针对以上问题,该文提出了一种混合机器学习和规则方法的蛋白质关系抽取框架。该框架先利用机器学习方法完成命名实体识别和二元关系抽取,然后利用基于句法模板和词典匹配的方法抽取表示当前两个蛋白质间关系类型的关系词。该方法在AImed语料上取得了40.18%的F值,远高于基于规则的Stanford Open IE方法。  相似文献   

6.
开放域上基于深度语义计算的复述模板获取方法   总被引:1,自引:0,他引:1  
利用实体关系从网络大规模单语语料获取复述模板的方法可以规避对单语平行语料或可比语料的依赖,但是后期需要人工对有语义差异的关系模板分类后获取复述模板。针对这一遗留问题,该文提出基于深度语义计算的复述模板自动获取方法,首先设计基于统计特征的模板裁剪方法,从非复述语料中获取高质量的关系模板,然后设计基于深度语义计算的关系模板聚类方法获取高精度的复述模板。我们在四类实体关系数据上的实验结果表明,该方法实现了关系模板的自动获取与自动聚类,可以获得语义相近度更高、表现形式多样的复述模板。  相似文献   

7.
基于合一句法和实体语义树的中文语义关系抽取   总被引:1,自引:0,他引:1  
该文提出了一种基于卷积树核函数的中文实体语义关系抽取方法,该方法通过在关系实例的结构化信息中加入实体语义信息,如实体类型、引用类型和GPE角色等,从而构造能有效捕获结构化信息和实体语义信息的合一句法和实体语义关系树,以提高中文语义关系抽取的性能。在ACE RDC 2005中文基准语料上进行的关系探测和关系抽取的实验表明,该方法能显著提高中文语义关系抽取性能,大类抽取的最佳F值达到67.0,这说明结构化句法信息和实体语义信息在中文语义关系抽取中具有互补性。  相似文献   

8.
王婷  王祺  黄越圻  殷亦超  高炬 《计算机应用》2017,37(10):2999-3005
针对症状间上下位关系具有较强结构特性的问题,提出一种基于症状构成成分的上下位关系自动抽取方法。首先,通过观察症状实体,发现症状可以切分为原子症状词、修饰词等八种成分,且成分的构成序列满足一定的规则。然后,利用词法分析系统和条件随机场模型对症状进行切分和成分标注。最后,把症状之间的关系抽取看作一个分类问题,选取症状成分的构成特征、词典特征以及通用特征作为分类算法的特征;基于多种分类算法训练模型,将症状间的关系分为上下位关系和非上下位关系。实验结果表明,当选用支持向量机算法,同时选用三类特征时,取得了最好的效果,准确率、召回率和F1值分别达到了82.68%、82.13%和82.40%。在此基础上,使用所提出的关系抽取算法,抽取了20619条上下位关系,构建了具有上下位关系的症状知识库。  相似文献   

9.
面向特定领域的汉语句法主干分析   总被引:3,自引:3,他引:3  
本文提出了一种面向特定领域的汉语句法主干分析方法。该方法中包括浅层句法分析、模板匹配两个关键环节,形成用模板表示的句法主干。在浅层句法分析中,本文使用了级联的隐马尔可夫模型进行了短语的归并;而后以已有的汉语句子模板为基础,进行模板匹配以达到句法主干分析的目标。在针对体育新闻领域语料的开放测试中,模板匹配的精确率和召回率分别达到了98.04%和81.43% ,句子级的精确率和召回率分别达到了96.97%、84.85% ,实验表明该方法在特定领域是有效的。  相似文献   

10.
实体集合扩展是开放式信息抽取的一个重要问题,该问题研究如何从一个语义类的若干实体(称为种子)出发,得到该类别的更多实体。现有实体集合扩展方法主要使用上下文模板或种子在语料中的分布信息进行抽取,其缺点是无法解决种子的歧义问题,而该问题会影响方法的有效性。在该文中,作者提出了一种融合实体语义知识的实体集合扩展方法,通过引入语义知识来解决种子歧义性问题。新方法通过使用Wikipedia实现了语义知识的引入,并把基于语义知识的扩展方法和基于模板的扩展方法相融合。实验表明,与单纯基于上下文方法相比,该文方法在准确率上提升了18.5%,召回率上提升了6.8%,MAP值上提升了22.8%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号