首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
关系抽取旨在从文本中抽取实体与实体之间的语义关系。作为关系抽取的上层任务,实体识别所产生的错误将扩散至关系抽取,从而导致级联错误。与实体相比,实体边界粒度小且具有二义性,更易识别。因此,提出一种基于实体边界组合的关系抽取方法,通过跳过实体,对实体边界两两组合来进行关系抽取。由于边界性能高于实体性能,所以错误扩散的问题得到了缓解;并且通过特征组合的方法将实体类型特征和位置特征加入模型中,性能得到了进一步提高,再次减轻了错误扩散带来的影响。实验结果表明,所提方法在ACE 2005英文数据集的宏平均F1值优于表格-序列编码器方法8.61个百分点。  相似文献   

2.
闫璟辉  宗成庆  徐金安 《软件学报》2024,35(6):2923-2935
实体识别是信息抽取的关键技术. 相较于普通文本, 中文医疗文本的实体识别任务往往面对大量的嵌套实体. 以往识别实体的方法往往忽视了医疗文本本身所特有的实体嵌套规则而直接采用序列标注方法, 为此, 提出一种融合实体嵌套规则的中文实体识别方法. 所提方法在训练过程中将实体的识别任务转化为实体的边界识别与边界首尾关系识别的联合训练任务, 在解码过程中结合从实际医疗文本中所总结出来的实体嵌套规则对解码结果进行过滤, 从而使得识别结果能够符合实际文本中内外层实体嵌套组合的组成规律. 在公开的医疗文本实体识别的实验上取得良好的效果. 数据集上的实验表明, 所提方法在嵌套类型实体识别性能上显著优于已有的方法, 在整体准确率方面比最先进的方法提高0.5%.  相似文献   

3.
命名实体识别作为信息抽取领域的一个基础任务,能为机器翻译、关系抽取等下游任务提供有效支撑,具有重要的研究意义。针对中文命名实体识别方法中存在的实体边界模糊的问题,提出了一种结合实体边界线索的命名实体识别模型,模型由边界检测、线索生成、实体分类三个模块组成。利用边界检测模块识别实体边界。在线索生成模块中依据边界信息生成实体跨度,得到带边界线索标签的文本序列,使模型通过边界线索标签感知句子中的实体边界,学习实体边界和上下文的语义依赖特征。将带有边界线索标签的文本序列作为实体分类模块的输入,使用双仿射机制增强标签之间的语义交互,并结合双仿射机制与多层感知机的共同预测作为实体识别的结果。该模型在ACE2005中文数据集和Weibo数据集上的F1值分别达到了90.47%和73.54%,验证了模型对中文命名实体识别的有效性。  相似文献   

4.
裁判文书中的证据是法官量刑的基础。通过证据抽取可以对案件审判质量进行评估,从而支撑“智慧法院”建设。裁判文书中的证据大多数都比较长且存在嵌套现象,例如,“张X的身份证复印件”中的 “身份证复印件”,而传统的命名实体识别模型BiLSTM-CRF对较长实体和嵌套实体的识别性能较低。为了解决因裁判文书中的证据长度较长和嵌套现象而导致证据抽取性能较低的问题,该文提出了一种基于边界识别与组合的证据抽取模型。该模型首先使用BiLSTM-CRF模型识别证据的开始边界和结束边界;然后组合开始边界和结束边界,形成携带大量丰富细粒度边界信息的候选证据;最后使用基于三通道的多核CNN模型,融合细粒度的边界信息特征,对候选证据进行筛选,识别候选证据中正确的证据。实验结果表明,该文提出的模型能有效地抽取裁判文书中的证据。  相似文献   

5.
姜小波  何昆  阎广瑜 《软件学报》2023,34(12):5649-5669
实体识别是信息抽取的关键任务.随着信息抽取技术的发展,研究人员从简单实体的识别转向复杂实体的识别.然而,复杂实体缺乏明显的特征且在句法结构与词性组成上更加复杂多样,给实体识别带来了巨大挑战.此外,现有模型广泛采用基于跨度的方法来识别嵌套实体,在实体边界检测方面呈现出模糊化,影响识别的性能.针对这些问题和挑战,提出了一种基于语义先验知识与类型嵌入的实体识别模型GIA-2DPE.该模型使用实体类别的关键词序列作为语义先验知识来提升对实体的认知,并通过类型嵌入捕获不同实体类型的潜在特征,然后通过门控交互注意力机制将先验知识与类型特征相融合以辅助复杂实体识别.另外,模型通过2D概率编码来预测实体边界,并利用边界特征和上下文特征来增强对边界的精准检测,从而提升嵌套实体的识别效果.在7个英文数据集和2个中文数据集上进行了广泛实验.结果表明, GIA-2DPE超越了目前最先进的模型;并且在ScienceIE数据集的实体识别任务中,相对基线F1分数取得了最高10.4%的提升.  相似文献   

6.
语言学组合特征在语义关系抽取中的应用   总被引:1,自引:0,他引:1  
语义关系抽取是信息抽取中的一个重要的研究领域。目前基于特征向量的语义关系抽取已经很难通过发掘新的特征来提高抽取的性能。本文提出了一种特征组合方法,通过在各种词法、语法、语义的基本特征内部及特征之间进行合理的组合形成组合特征,使用基于支持向量机的学习方法,使得关系抽取的准确率和召回率得到了提高。在ACE 2004语料库的7个关系大类和23个关系子类抽取实验中F值分别达到了66.6%和59.50%。实验结果表明通过对基本语言学特征进行组合所得到的组合特征能够显著地提高语义关系抽取的性能。  相似文献   

7.
目前在中文命名实体识别的任务中经常采用有监督的字序列标注模型。我们在实际应用中发现,基于字序列标注模型的中文命名实体识别模型对于词语边界的识别错误是影响识别效果的主要因素之一,边界错误平均占错误结果中的47.5%。该文通过在平均感知机模型中引入全局的词语边界特征,使得人名、地名、机构名识别的F值平均提升了0.04并降低了边界错误占错误结果的比例。  相似文献   

8.
中文实体关系抽取中的特征选择研究   总被引:9,自引:4,他引:9  
命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为: 包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了一些适合各自特点的新的句法特征。在CRF 模型框架下,以ACE2007 的语料作为实验数据,结果表明本文的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。关键词: 计算机应用;中文信息处理;实体关系抽取;包含关系;非包含关系;特征选择;ACE 评测  相似文献   

9.
从无结构文本中抽取实体与实体之间的关系是自然语言处理领域的重要研究内容,同时也为构建知识图谱、问答系统等应用提供重要支撑。基于联合模型的实体关系抽取任务将实体识别和关系抽取同时进行,克服了传统实体关系抽取任务中先识别句子中的实体,然后再进行实体关系判断这两次任务中的错误累加。该文针对藏文语料匮乏、实体识别准确率不高等问题,提出了基于联合模型抽取藏文实体关系的方法。基于藏文实体关系抽取任务,提出以下方案: ①针对藏文分词准确率不高的问题,对藏文进行字级和词级两种方式进行预处理,并给出对比实验,结果表明采用字级处理方式较词级处理方式效果有所提高。②藏文是一种语法规则比较强的语言,名词、格助词等能明确指示句子各组块之间的语法和语义结构关系,因此该文将藏文的词性标注特征加入到藏文的字词向量中,实验结果证明了方法的有效性。③该文借鉴了联合模型处理的优势,提出基于联合模型处理方式,采用端到端的BiLSTM框架将藏文实体关系抽取任务转变为藏文序列标注的问题,实验结果表明,该文的方法较传统的基于藏文处理方式,如SVM算法和LR算法,准确率提高了30%~40%。  相似文献   

10.
实体嵌套是自然语言中一种常见现象,提高嵌套命名实体识别的准确性对自然语言处理各项任务具有重要作用。针对现有嵌套命名实体识别方法在识别实体边界时不够准确、未能有效利用实体边界信息等问题,提出一种嵌套命名实体识别的边界强化分类模型。采用卷积神经网络提取邻接词的特征,通过加入多头注意力的序列标注模型获取实体中的边界特征,提高实体边界检测的准确性。在此基础上,计算实体中各词语对实体类型的贡献度,将实体关键字与实体边界词相结合来表示实体,使实体表示中包含实体关键信息和边界信息,最后进行实体类型检测。实验结果表明,通过加入多头注意力机制能够有效提升对嵌套命名实体的检测和识别性能,该模型在GENIA和GermEval 2014数据集上准确率有较好表现,并且召回率和F1值较对比模型达到最优。  相似文献   

11.
实体关系联合抽取的作用是从特定文本中识别出实体和对应关系,同时它也是知识图谱构建和更新的基础。目前的联合抽取方法在追求性能的同时都忽略了抽取过程中的信息冗余。针对此问题,提出基于潜在关系的实体关系联合抽取模型,通过设计一种新的解码方式来减少预测过程中关系、实体和三元组的冗余信息,从整体上分为提取潜在实体对、解码关系两步来完成从句子中抽取三元组的任务。首先通过潜在实体对提取器预测实体间是否存在潜在关系,同时筛选出置信度高的实体对作为最终的潜在实体对;其次将关系解码视作多标签二分类任务,通过关系解码器预测每个潜在实体对之间全部关系的置信度;最后通过置信度确定关系数量和类型,以完成三元组的抽取任务。在两个通用数据集上的实验结果表明,所提模型相比基线模型在准确率和F1指标上的效果更好,验证了所提模型的有效性,消融实验也证明了模型内部各部分的有效性。  相似文献   

12.
针对在采用支持核函数的机器学习算法进行基于特征的中文领域实体关系抽取中,不同核函数对不同中文领域关系抽取在效果上存在差异性的问题,该文提出一种基于凸组合核函数的中文领域实体关系抽取方法。首先,选取实体上下文的词、词性等信息,短语句法树信息及依存信息作为特征,然后通过以径向基核函数,Sigmoid核函数及多项式核函数组成的不同组合比例的凸组合核函数将特征矩阵映射成为不同的高维矩阵,利用支持向量机训练这些高维矩阵构建不同分类模型后测试抽取性能,以确定最优组合比例的凸组合核函数。在收集600篇旅游领域语料上进行关系抽取,实验结果表明最优凸组合核函数能增加实体关系抽取效果, F值达到62.9。  相似文献   

13.
针对现有的中文开放领域知识库问答系统缺乏对多关系问答的支持,将知识库问答过程分为实体识别、实体关系抽取和答案检索三个步骤,重点讨论了实体关系抽取的实现方法。在实体关系抽取阶段,提出一种基于规则的关系词提取方法抽取问句中的关系词,然后将关系词与知识库中的谓词进行相似度计算,得到关系集合,结合实体识别的结果,将问句转换为具有语义信息的三元组形式。实验结果表明,该方法可以支持多关系问答,并且具有较高的平均F1分数。  相似文献   

14.
实体关系抽取任务是对句子中实体对间的语义关系进行识别。该文提出了一种基于Albert预训练语言模型结合图采样与聚合算法(Graph Sampling and Aggregation, GraphSAGE)的实体关系抽取方法,并在藏文实体关系抽取数据集上实验。该文针对藏文句子特征表示匮乏、传统藏文实体关系抽取模型准确率不高等问题,提出以下方案: ①使用预先训练的藏文Albert模型获得高质量的藏文句子动态词向量特征; ②使用提出的图结构数据构建与表示方法生成GraphSAGE模型的输入数据,并通过实验证明了该方法的有效性; ③借鉴GraphSAGE模型的优势,利用其图采样与聚合操作进行关系抽取。实验结果表明,该文方法有效提高了藏文实体关系抽取模型的准确率,且优于基线实验效果。  相似文献   

15.
随着深度学习技术的应用,自然语言处理领域得到快速发展,为提高中文命名实体识别效果,提出一种新的方法,利用英文模型抽取信息辅助中文命名实体识别。该方法使用翻译模型将中文翻译为英文,然后利用英文命名实体识别模型抽取特征,再利用翻译模型的注意力权重进行信息迁移,将预训练的英文命名实体识别模型提取的特征用于中文命名实体识别。该方法可以将训练模型中得到的任务相关特征进行迁移,从而丰富原始数据的语义表示。在两个中文命名实体识别数据集上的实验表明,该方法优于其他现有方法。  相似文献   

16.
许多的生物医学命名实体识别(Bio-NER)工作都集中于提取扁平化的实体,而忽略了嵌套实体和不连续实体.此外,大多数生物医学命名实体都未遵循统一的命名法,具有许多典型的领域特征,但其使用效率较低.为此提出一种结合CRF的边界组合命名实体识别方法,有效地利用了生物医学实体特征.该方法包括边界检测、边界组合和实体筛选三个步骤.首先使用神经网络模型和基于特征的CRF模型识别实体开始和结束边界,然后经过边界组合产生候选实体,最后使用多输入的卷积神经网络模型对候选实体进行筛选并分类.实验表明,该方法能够有效地识别生物医学文献中的嵌套和不连续实体,在GENIA数据集上达到81.89%的F值.  相似文献   

17.
针对中文电子病历中命名实体识别和实体关系抽取研究方法中存在的问题,提出了一种基于双向长短时记忆网络(bidirectional long short term memory)与CRF(conditional random field)结合的实体识别和实体关系抽取方法。该方法首先使用词嵌入技术将文本转换为数值向量,作为神经网络BiLSTM的输入,再结合CRF链式结构进行序列标注,输出最大概率序列,并对识别结果知识图谱化。实验证明,该方法对中文电子病历进行实体识别和实体关系抽取时的准确率、召回率、◢F◣值有明显的提升。实验结果满足临床中系统应用需求,对帮助研究构建临床决策支持系统、个性化医疗推荐服务有引导作用。  相似文献   

18.
实体-关系联合抽取指从非结构化文本中联合抽取出实体-关系三元组,是信息抽取和知识图谱构建的一项关键任务。文中提出了一种新的基于全局指针网络实体关系联合抽取方法BGPNRE(BERT-based Global Pointer Network for Named Entity-Relation Joint Extraction),首先通过潜在关系预测模块预测文本中蕴含的关系,过滤掉不可能存在的关系,将实体抽取限制在预测的关系子集中;其次通过使用基于关系的全局指针网络,获取所有主客体实体的位置;最后通过全局指针网络通信模块,将主客体位置高效率地解码对齐成一个实体关系三元组。该方法避免了传统管道式方法存在的错误传播问题,同时也解决了关系冗余、实体重叠、Span提取泛化不足等问题。实验结果表明,所提方法在多关系和重叠实体抽取上表现卓越,并且在NYT和WebNLG公共数据集上达到了最先进的水平。  相似文献   

19.
基于神经网络的触发词抽取模型利用实体信息判别触发词,但大量无关实体会影响触发词抽取效果。提出一种借助局部实体特征的事件触发词抽取方法,该方法先初步过滤无关实体,并将保留实体分为核心与非核心2类分别进行建模。利用卷积神经网络(CNN)抽取局部特征的特性,从众多实体中定位有助于触发词识别的局部重要实体,采用注意力机制提高其权重,同时利用有效非核心实体的语义排除干扰实体,从而借助重要实体的特征信息判别触发词。在特定和通用领域事件语料库上的实验结果均表明,该方法能够减少无关实体对触发词抽取的干扰,其触发词抽取性能的F1值比基准系统最高可提升0.017。  相似文献   

20.
跨境民族文化领域实体通常由描述民族文化特征的领域词汇组合构成,使用当前主流的基于字符表征的实体识别方法会面临领域实体边界模糊问题,造成实体识别错误。为此,该文提出一种融入词集合信息的跨境民族文化实体识别方法,利用领域词典获取的词集合增强领域实体的词边界和词语义信息。首先,构建跨境民族文化领域词典,用于获取词集合信息;其次,通过词集合注意力机制获取词集合向量之间的权重,并融入位置编码增强词集合位置信息;最后,在特征提取层融入词集合信息,增强领域实体边界信息并缓解仅使用字符特征表示所带来的词语义缺失问题。实验结果表明,在跨境民族文化文本数据集上所提出方法相比于基线方法的F1值提升了2.71%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号