首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
基于信息熵的半监督领域实体关系抽取研究   总被引:1,自引:1,他引:0  
针对监督机器学习方法抽取实体关系受限于标注语料的规模问题,提出采用信息熵方法来不断扩展小规模训练数据的半监督领域实体关系抽取。结合领域词汇选取小规模训练数据,构建了一定准确率的初始最大熵分类器,用来从未标记数据中预测出候选新实例。采用信息熵方法,通过设定不同熵值,多次循环以选取可信度较高的新实例来扩展训练数据。使用扩展后的训练数据重新迭代训练分类器,分类器性能趋于稳定迭代终止,实现了半监督学习的领域实体关系抽取。实验表明,和已有方法相比,本文提出的半监督领域实体关系抽取通过结合信息熵方法,在小规模标注样本环境中取得了较好的学习效果。  相似文献   

2.
实体关系的自动抽取研究   总被引:6,自引:0,他引:6  
针对实体关系的自动获取难题,将极大熵算法和Bootstrapping算法相结合,利用Bootstrapping算法和标量聚类的思想,通过设置种子模板和种子词获取了极大熵算法中所需的特征词.结合极大熵算法,从语言的形态学、语法、语义等方面系统地设计了9个特征,尽可能全方位地描述文实体的真实情况.搭建了实验所需的系统框架,实现了实体关系的自动抽取.实验结果表明:该方法能够有效地解决实体关系的自动生成问题.  相似文献   

3.
提出基于弱监督学习的属性抽取方法, 利用知识库中已有结构化的属性信息自动获取训练语料, 有效解决了训练语料不足问题. 针对训练语料存在的噪声问题, 提出基于关键词过滤的训练语料优化方法. 提出n元模式特征提取方法, 该特征能够缓解传统n-gram特征稀疏性问题. 实验数据源来自互动百科, 从互动百科信息盒中抽取结构化属性信息构建知识库, 从百科条目文本中自动获取训练数据和测试数据. 实验结果表明, 关键词过滤能有效提高训练语料的质量, 与传统n-gram特征相比, n元模式特征能够提高属性抽取的性能.  相似文献   

4.
以突发事件领域为例,针对本体构建中领域概念间关系自动抽取的问题,提出了一种混合的领域概念间关系自动抽取方法,将领域概念间的关系分成关系类型未知和已知2种情况,并分别基于扩展关联规则和关系抽取规则进行抽取,同时提出了构造和自动扩展关系抽取规则的方法.实验结果表明,所提出的方法是可行和有效的,不仅能获得特定领域中存在的丰富的语义关系,而且能获得较好的性能.  相似文献   

5.
以“公司人事变动”领域为例,针对实体关系抽取课题,从知识自动获取角度出发,基于Bootstrapping思想提出了层次知识获取模型,利用内外两层模块相互嵌套自动获取知识,获得了实体关系分析所需要的领域专用词典和模板规则。结合全信息理论,对模板添加语义和语用标注,生成全信息知识库。在此基础上,完成关系抽取实验和评测。  相似文献   

6.
实体关系抽取是判断专利新颖性的核心环节,传统的实体关系抽取都是采用串行方式来进行,有很大的局限性。该文利用两种改进的BERT算法研究了专利实体关系抽取的技术演化。一种是将中文特征和句法语义特征相结合的新算法—基于改进的BERT-BiLSTM-CRF命名实体识别算法;另一种是将注意力机制与句法语义特征相结合的新算法—基于注意力机制与语义结合的实体关系抽取算法。最后以石墨烯制备技术为例,利用数值实验说明改进的两种算法能够高效分析专利的内容,揭示石墨烯企业技术的动态演化过程。  相似文献   

7.
为缓解远监督关系抽取中的假阳性问题并进一步提高关系抽取的准确率和召回率,提出基于实体对弱约束的远监督关系抽取模型。首先,从知识库和文本中获取实体对的约束信息,约束信息由实体对关键词和实体类型两部分组成;然后,通过训练神经网络模型自动获取不同关系所对应的实体对约束信息的特征;最后,将这些特征用作弱约束联合语句特征一起进行关系预测。在对比实验中,基于实体对弱约束的模型达到了更高的准确率和召回率,表明了实体对弱约束能有效缓解假阳性问题、加强关系抽取。  相似文献   

8.
军事实体关系抽取是军事信息抽取的主要任务之一,目的在于识别非结构化军事文本中两个命名实体的关系类别.传统的军事关系抽取方法难以解决人工特征不充分、军事领域中文分词不准确以及未能充分利用句子间的实体关系特征等问题.因此,提出了一种融合预训练语言模型(BERT)和注意力机制的军事关系识别方法.该方法能够有效学习上下文语义特...  相似文献   

9.
职业是人物实体的代表性特征,能够有效地区分人物实体。传统人名消歧算法仅把职业当作一个普通的特征,忽视了它的重要性。针对以上问题,提出了基于职业特征的人名消歧算法。首先通过互联网手动构建基础职业词典;其次以维基百科的所有中文页面为训练语料,通过词激活力模型扩展基础职业词典得到职业特征词典;然后从文本中提取职业特征,并抽取人名和作品名作为其补充特征,弥补文本中职业特征缺失和同一人物具有多个职业的问题;最后采用凝聚层次聚类实现人名消歧。在CLP2010的人名消歧训练语料上进行实验,结果表明文章算法能够有效地实现人名消歧。  相似文献   

10.
维基百科的中文语义相关词获取及相关度分析计算   总被引:2,自引:0,他引:2  
本文介绍了利用开放式百科全书维基百科获取语义关联词汇,并对语义相关程度进行分析和计算的方法。我们选择并整理了5万余篇维基百科中文语料,并利用超链接关系及词的互现等特征,获得了近40万对在概念或事实存在某种紧密语义关系的词,并简单分析了其聚类特性。进一步我们结合词在文档中的位置、频率等信息对语义相关程度进行了计算,并结合经典算法的相关结果,在不同语义相关度的集合上进行了对比实验,分析了本文获取语义关联词方法的有效性  相似文献   

11.
从文本大数据中快速准确地抽取文本的实体关系信息是构建知识图谱的关键.针对目前主流的远程监督关系抽取方法常常忽略实体对的类型信息和句子语法信息的问题,该文提出了一种基于深度强化学习的文本实体关系抽取方法.首先,利用结合实体周围词注意力机制的双向长短期记忆网络作为句子编码的第一个模块;然后,在此基础上加入实体类型嵌入模块,...  相似文献   

12.
实体关系抽取作为信息抽取的核心任务和重要环节,能够实现实体对间语义关系的识别,对句子语义理解及实体语义知识库构建有着重要作用。回顾了实体关系抽取的发展史,总结了有监督实体关系抽取、无监督实体关系抽取、半监督实体关系抽取和开放式实体关系抽取4类方法的原理和代表性研究,并对各类方法进行了详细比较。  相似文献   

13.
为了提高词义消歧性能,提出了一种基于卷积神经网络的消歧方法.以歧义词为中心,向左右两侧连续扩展4个邻接词汇单元,选取其中的词形、词性和语义类作为消歧特征.以消歧特征为基础,使用卷积神经网络来确定歧义词的语义类别.利用SemEval-2007:Task#5的训练语料和哈尔滨工业大学语义标注语料来优化卷积神经网络.使用SemEval-2007:Task#5的测试语料来测试词义消歧分类器的性能,所提方法的消歧平均准确率有提高.实验结果表明,该方法在词义消歧中是可行的.  相似文献   

14.
一种基于Bootstrapping的本体学习方法   总被引:1,自引:0,他引:1  
提出了一种基于自扩展的本体学习方法用于获取领域术语.该方法只需提供少量种子术语和一个未标注语料库作为输入,由种子术语开始学习抽取模式,再由学习到的模式发现新的术语,进一步由新发现的术语学习新的抽取模式,如此循环迭代.实验结果表明,该算法能够产生较高质量的领域术语集合和抽取模式集合,这样的集合可用于相关领域的信息抽取.  相似文献   

15.
基于实体词语义相似度的中文实体关系抽取   总被引:1,自引:1,他引:0  
为了探索语义相似度在中文实体关系抽取上的作用,提出由实体词在《同义词词林》中的5层编码构建成的《同义词词林》编码树和由关系实例中的实体词,各个类别中所有实体词计算相似度后求得的平均值构建成的实体词语义相似度树2种新特征,并连同已有的《同义词词林》编码、实体类型信息共4种特征探究其对抽取性能的影响。单一特征的试验中,实体类型特征效果最好,F值达到了小类84.9、大类83.2;组合特征的试验中,实体类型和《同义词词林》编码树的组合特征效果最好,大类小类的F值都比实体类型特征提高了2.5,3种组合特征性能不升反降。试验结果表明《同义词词林》编码树是对实体类型的有效补充,但过多的特征会造成信息冗余,使抽取性能下降。  相似文献   

16.
针对开放文本中中文实体关系抽取的一词多义问题,提出一种基于实体消歧的中文实体关系抽取方法。首先,从知网中挖掘出具有潜在语义关系的实体对,并利用贝叶斯分类的语义消歧方法实现从知网到维基百科的实体映射,以获取高质量的关系实例;然后,根据这些关系实例抽取出其对应文本中共现的句子实例,构建基本的抽取模式;最后通过模式合并的方法生成新模式,再使用新模式来抽取新实例。实验结果表明,该方法与没有进行语义消歧和模式合并的方法相比准确率有所提高。  相似文献   

17.
传统中文实体关系抽取方法大都采用基于共现实体对的上下文模型,这种模型会遗失很多潜在的实体关系,并且无法对相似的实体关系给出合理的描述信息。针对这一局限性,文章提出一种基于单实体的上下文语言模型。通过对文本集中的所有实体建立上下文语言模型,来计算实体之间的相似度以及上下文词汇的贡献度得分,从而发现相似度较高的实体对,并获得实体关系的描述信息。实验证明,与传统方法相比,本文方法能够发现更丰富的实体关系,描述信息也更加准确。  相似文献   

18.
一种基于树核函数的半监督关系抽取方法研究   总被引:1,自引:1,他引:0  
为了解决传统的半监督关系抽取算法易产生的"语义变异"问题,提出一种新的基于树核函数的半监督关系抽取算法。该算法主要采用树核函数和种子集约束扩展两个策略,弱化"语义变异"现象带来的关系抽取不够准确的问题,提高关系识别的正确率。在基准数据集PopBank上的试验研究表明,提出的使用约束机制扩充种子集的半监督学习方法在4个评价指标上(Precision, Recall, F-measure, Accuracy)均优于常用的两种关系抽取方法,从而验证了该算法与其他算法相比能够具有较好的关系抽取能力。  相似文献   

19.
The performance of a machine translation system heavily depends on the quantity and quality of the bilingual language resource.However,getting a parallel corpus,which has a large scale and is of high quality,is a very difficult task especially for low resource languages such as Chinese-Vietnamese.Fortunately,multilingual user generated contents (UGC),such as bilingual movie subtitles,provide us access to automatic construction of the parallel corpus.Although the amount of UGC parallel corpora can be considerable,the original corpus is not suitable for statistical machine translation (SMT) systems.The corpus may contain translation errors,sentence mismatching,free translations,etc.To improve the quality of the bilingual corpus for SMT systems,three filtering methods are proposed:sentence length difference,the semantic of sentence pairs,and machine learning.Experiments are conducted on the Chinese to Vietnamese translation corpus.Experimental results demonstrate that all the three methods effectively improve the corpus quality,and the machine translation performance (BLEU score) can be improved by 1.32.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号