首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
基于正反例训练的SVM命名实体关系抽取   总被引:1,自引:0,他引:1  
刘路  李弼程  张先飞 《计算机应用》2008,28(6):1444-1446
根据中文命名实体关系抽取的特点,从中文的形态学、语法及语义等几个方面选取特征并构建特征向量,然后将符合特定实体关系模板的候选命名实体对抽取出来并分为正反例。利用正反例样本对支持向量机(SVM)抽取器进行训练,以此来判断候选命名实体对的关系类型。实验证明,本方法能够有效提高中文命名实体关系抽取的准确率。  相似文献   

2.
实体关系抽取是信息抽取研究领域中的重要研究课题之一.针对已有方法在处理复杂文本上的不足,提出了复杂中文文本的实体关系抽取方法.结合中文文本的语法特征,提出了7条抽取关系特征序列的启发式规则,并采用语义序列核和KNN机器学习算法结合的方法来分类和标注关系的类型.通过对ACE评测定义下的两个子类的实体关系抽取,关系抽取的平均F值迭到了76%,明显高于传统的基于特征向量和最短依存路径核的方法.  相似文献   

3.
命名实体关系抽取是信息抽取领域中的重要研究课题。本文采用基于特征向量的机器学习算法支持向量机(SVM)进行实体关系抽取实验。在现有的算法中,特征提取方法以基于关键词集的向量空间模型为主。本文提出一种基于语义的文本特征提取方法,并且在关系抽取实验中取得较好的效果。实验证明将语义特征应用到关系抽取领域中可以明显提高性能。  相似文献   

4.
基于核函数中文关系自动抽取系统的实现   总被引:14,自引:0,他引:14  
实体关系抽取是信息抽取的重要组成部分.基于核函数的中文实体关系自动抽取系统应用改进的语义序列核函数,结合KNN机器学习算法构造分类器来分类并标注关系的类型.通过对ACE评测定义的三大类6子类实体关系的抽取,关系抽取的平均精度可以达到88%,明显高于基于特征向量和传统的序列核函数方法,该方法适合小训练集,易于学习新的实体关系.系统由8个独立的模块构成,便于维护和升级.系统既可以独立运行,也可以嵌入在开放的文本处理平台GATE环境.为了更好地利用关系抽取的结果,系统扩展传统的二元关系,抽取关系的同时,抽取该关系的描述,形成完整的中文实体关系抽取系统.  相似文献   

5.
现有实体关系联合抽取方法未充分考虑中文句子中实体关系的复杂结构特征,为此,提出一种基于图卷积神经网络(GCN)的中文实体关系联合抽取方法。在双向长短时记忆网络抽取序列特征的基础上,利用GCN编码依存分析结果中的语法结构信息,借鉴改进的实体标注策略构建端到端的中文实体关系联合抽取模型。实验结果表明,该方法的F值可达61.4%,相比LSTM-LSTM模型提高了4.1%,GCN能有效编码文本的先验词间关系并提升实体关系抽取性能。  相似文献   

6.
命名实体识别作为信息抽取领域的一个基础任务,能为机器翻译、关系抽取等下游任务提供有效支撑,具有重要的研究意义。针对中文命名实体识别方法中存在的实体边界模糊的问题,提出了一种结合实体边界线索的命名实体识别模型,模型由边界检测、线索生成、实体分类三个模块组成。利用边界检测模块识别实体边界。在线索生成模块中依据边界信息生成实体跨度,得到带边界线索标签的文本序列,使模型通过边界线索标签感知句子中的实体边界,学习实体边界和上下文的语义依赖特征。将带有边界线索标签的文本序列作为实体分类模块的输入,使用双仿射机制增强标签之间的语义交互,并结合双仿射机制与多层感知机的共同预测作为实体识别的结果。该模型在ACE2005中文数据集和Weibo数据集上的F1值分别达到了90.47%和73.54%,验证了模型对中文命名实体识别的有效性。  相似文献   

7.
实体关系联合抽取模型在实体关系抽取中具有重要作用,针对现有的实体关系联合抽取模型无法有效识别重叠关系中的实体关系三元组问题,提出一种新型的基于跨度和特征融合的实体关系联合抽取模型SFFM。将文本输入BERT预训练模型转变为词向量,根据跨度进行词向量划分形成跨度序列,并基于卷积神经网络过滤跨度序列中不包含实体的跨度序列,使用双向长短时记忆提取剩余跨度序列融合文本信息后的特征并通过Softmax回归实现实体识别,将文本中的实体和关系映射到不同的跨度序列中,当重叠关系中的实体和距离较远的实体之间存在关系时,按照跨度进行划分使可能存在关系的实体对划分到同一个跨度序列中,以更好地利用文本中的重叠关系。在此基础上,通过注意力机制获取跨度序列中的依赖关系,运用Softmax回归对跨度序列中的关系进行分类。实验结果表明,与基线模型相比,该模型在CoNLL04数据集上的微平均和宏平均分别提升了1.87和1.73个百分点,在SciERC数据集上的微平均提升了5.95个百分点。  相似文献   

8.
药用植物文本的命名实体识别对中医药领域的信息抽取和知识图谱构建起着重要作用。针对药用植物属性文本存在长序列语义稀疏的问题,提出一种基于注意力机制的双向长短时记忆网络(BiLSTM)和条件随机场(CRF)模型相结合的疾病实体识别方法(BiLSTM+ATT-CRF,BAC)。首先对药用植物属性文本进行预处理和半自动化标注构建数据集,并进行预训练得到低维词向量;然后将这些低维词向量输入BiLSTM网络中,得到双向语义依赖的特征向量;Attention层把注意力集中到与当前输出特征高度相关的信息上;最后通过条件随机场(CRF)算法获取最优的标签序列并解码输出。实验结果表明,BAC方法针对药用植物属性文本的长序列语义稀疏问题,疾病命名实体识别效果较传统方法更优。利用BAC方法训练好的模型从1680条文本句子中识别疾病命名实体,共抽取出1422个疾病实体。与药用植物名称进行匹配,共抽取出4316个药用植物治疗疾病的三元组数据。  相似文献   

9.
基于维基百科的领域历史沿革信息抽取   总被引:1,自引:0,他引:1  
赵佳鹏  林民 《计算机应用》2015,35(4):1021-1025
针对在软件工程的教学过程中,由于领域概念种类多、演变快,导致学生理解记忆困难的问题,提出了通过抽取软件工程领域历史沿革主题信息构建知识库的方法。该方法首先结合自然语言处理技术与Web信息抽取技术从维基百科的自由文本中抽取实体与实体关系构建候选集;再利用关键词抽取方法TextRank从候选集中抽取与历史沿革关系最密切的实体关系;最后以关键实体关系为核心,抽取邻近的时间实体与概念实体组成五元组构建了知识库。在抽取信息的过程中,结合文本的语义信息对TextRank算法进行了改进,提高了抽取的准确率。实验结果表明,该知识库能够将软件工程领域的概念按时序特征组织在一起,验证了所提方法的有效性。  相似文献   

10.
关系抽取旨在从文本中抽取实体与实体之间的语义关系。作为关系抽取的上层任务,实体识别所产生的错误将扩散至关系抽取,从而导致级联错误。与实体相比,实体边界粒度小且具有二义性,更易识别。因此,提出一种基于实体边界组合的关系抽取方法,通过跳过实体,对实体边界两两组合来进行关系抽取。由于边界性能高于实体性能,所以错误扩散的问题得到了缓解;并且通过特征组合的方法将实体类型特征和位置特征加入模型中,性能得到了进一步提高,再次减轻了错误扩散带来的影响。实验结果表明,所提方法在ACE 2005英文数据集的宏平均F1值优于表格-序列编码器方法8.61个百分点。  相似文献   

11.
电子病历命名实体识别和实体关系抽取研究综述   总被引:2,自引:0,他引:2  
电子病历(Electronic medical records,EMR)产生于临床治疗过程,其中命名实体和实体关系反映了患者健康状况,包含了大量与患者健康状况密切相关的医疗知识,因而对它们的识别和抽取是信息抽取研究在医疗领域的重要扩展. 本文首先讨论了电子病历文本的语言特点和结构特点,然后在梳理了命名实体识别和实体关系抽取研究一般思路的基础上,分析了电子病历命名实体识别、实体修饰识别和实体关系抽取研究的具体任务和对应任务的主要研究方法. 本文还介绍了相关的共享评测任务和标注语料库以及医疗领域几个重要的词典和知识库等资源. 最后对这一研究领域仍需解决的问题和未来的发展方向作了展望.  相似文献   

12.
针对非结构化自由文本中关系模式比较复杂,关系抽取性能不高的问题,该文提出了利用BP神经网络的优化算法-LM算法,对非结构化自由文本信息中的领域概念实体属性关系进行抽取。首先对语料进行预处理,然后利用CRFs模型对领域概念的实例、属性和属性值进行实体识别,然后根据领域中各类关系的特点分别进行特征提取,构造BP神经网络模型,利用LM算法抽取相应关系。和适用于二分类问题的SVM相比,人工神经网络优化算法自主学习能力强,识别精度高,更适用于多分类的问题。通过几组实验表明,该方法在领域概念实体属性关系抽取方面取得了良好的效果, F值提高了12.8%。  相似文献   

13.
基于多层条件随机场的中文命名实体识别   总被引:2,自引:0,他引:2       下载免费PDF全文
命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识别的方法。对大规模真实语料进行开放测试,两项识别的召回率、准确率和F值分别达到91.95%、89.99%、90.50%和90.07%、88.72%、89.39%。  相似文献   

14.
在生物医学文本挖掘领域, 生物医学的命名实体和关系抽取具有重要意义。然而目前中文生物医学实体关系标注语料十分稀缺, 这给中文生物医学领域的信息抽取任务带来许多挑战。 该文基于深度学习技术搭建了中文生物医学实体关系抽取系统。首先利用公开的英文生物医学标注语料, 结合翻译技术和人工标注方法构建了中文生物医学实体关系语料。然后在结合条件随机场(Conditional Random Fields, CRF)的双向长短期记忆网络 (Bi-directional LSTM, BiLSTM) 模型上加入了基于生物医学文本训练的中文 ELMo (Embedding from Language Model) 完成中文实体识别。最后使用结合注意力(Attention) 机制的双向长短期记忆网络抽取实体间的关系。实验结果表明,该系统可以准确地从中文文本中抽取生物医学实体及实体间关系。  相似文献   

15.
基于本体关系匹配的信息抽取   总被引:3,自引:0,他引:3       下载免费PDF全文
何召卫  陈俊亮 《计算机工程》2007,33(21):207-209
目前,稳定可靠的信息抽取是一个有待解决的问题,该文提出了基于本体关系匹配信息抽取算法,应用语义Web把信息抽取目标文档描述为特殊的本体格式,采用机器学习理论对本体进行分析和处理。测试数据集的实验结果显示,本体关系集匹配算法优于其他4种信息抽取算法。  相似文献   

16.
基于卷积神经网络的中文医疗弱监督关系抽取   总被引:1,自引:0,他引:1  
随着医疗领域受到越来越多的关注,自然语言处理的理论和应用逐渐拓展到该领域,其中信息抽取技术在该领域的应用成为研究热点。针对信息抽取技术在医疗领域实体关系抽取中的应用,提出一种基于卷积神经网络的弱监督关系抽取方法。该方法通过添加人工规则使训练语料带有实体关系标签,然后将该弱关系训练语料转换为向量特征矩阵,并输入到卷积神经网络进行分类模型训练,最终实现实体关系抽取。实验结果表明,该方法比常规机器学习方法更加准确高效。  相似文献   

17.
基于种子自扩展的命名实体关系抽取方法   总被引:6,自引:0,他引:6       下载免费PDF全文
何婷婷  徐超  李晶  赵君喆 《计算机工程》2006,32(21):183-184,193
命名实体间关系的抽取是信息抽取中的一个重要研究问题,该文提出了一种从大量的文本集合中自动抽取命名实体间关系的方法,找出了所有出现在同一句子内、词语之间的距离在一定范围之内的命名实体对,把它们的上下文转化成向量。手工选取少量具有抽取关系的命名实体对,把它们作为初始关系的种子集合,通过自学习,关系种子集合不断扩展。通过计算命名实体对和关系种子之间的上下文相似度来得到所要抽取的命名实体对。通过扩展关系种子集合的方法,抽取的召回率和准确率都得到了提高。该方法在对《人民日报》语料库的测试中,取得了加权平均值F-Score为0.813的效果。  相似文献   

18.
实体关系抽取的核心问题是实体关系特征的选择。以往的研究通常都以词法特征、实体原始特征等来刻画实体关系,其抽取效果已难再提高。在传统方法的基础上,该文提出一种基于句法特征、语义特征的实体关系抽取方法,融入了依存句法关系、核心谓词、语义角色标注等特征,选择SVM作为机器学习的实现途径,以真实新闻文本作为语料进行实验。实验结果表明该方法的F1值有明显提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号