首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
针对目前文档级别关系抽取主要关注实体间的逻辑推理,未充分利用实体间的层次语义信息问题,提出一种基于实体层次结构的文档级别关系抽取模型。考虑多句文本中实体间的交互,将实体构建为文档图并使用图卷积神经进行信息传播;通过实体间的上下位关联构建实体层次树,使用注意力机制将层次语义信息融入实体;为降低模型对实体表面信息的关注,使用实体类型对实体词进行替换。实验结果表明,在大规模文档级别关系抽取数据集上实体语义信息增强的方案能够有效提高文档级别关系抽取的效果。  相似文献   

2.
通过评议文档与专家库的专家学术专长匹配,可以输出领域相关的候选专家列表,是同行评议中专家遴选和专家推荐的重要参考依据.针对学术专长匹配存在语义鸿沟、无法反映专家和评议文档多源信息间语义关联的问题,首先对专家信息和评议文档的多源信息进行语义特征抽取,融合多类特征进行表示学习,利用卷积神经网络设计专家特征抽取器ExpFeat和评议特征抽取器RevFeat,采用词嵌入方法和注意力机制对专家专长标签、评议文档关键词、学科分类树语义特征进行抽取和融合,生成具有“小同行”特征的专家和评议文档语义特征向量表示,解决多类信息源间不同学术分类标准造成的语义差异,反映内在语义联系,利用低维稠密向量表达语义信息,降低匹配复杂度.然后,根据专家语义特征表示和评议文档语义特征表示进行学术专长语义匹配,将专家和评议文档特征向量映射到相同语义空间,计算向量间余弦相似度衡量语义相似性,引入负例专家进行模型训练,通过softmax函数计算最大化正例专家概率优化特征提取器参数,进一步提升语义差异的捕捉能力,解决专家信息和评议文档之间的语义鸿沟问题,提升专家匹配效果.最后,在开源的论文评审数据集和项目评审数据集上进行了实验...  相似文献   

3.
在多标签文本分类任务中,每个给定的文档都对应一组相关标签。目前主要面临以下三方面问题:(1)对标签-文本和标签-标签关系的联合建模不充分;(2)对标签本身语义的挖掘不足;(3)忽略了对标签内部结构信息的利用。对于以上问题,提出了一种基于联合注意力和共享语义空间的多标签文本分类方法。提出了融合多头注意力机制,该方法旨在同步地对标签与文档的关系和标签之间的关系进行建模,利用两者交互信息的同时避免误差传递。提出了解耦的共享语义空间嵌入方法,改进了利用标签语义信息的方法,使用共享参数的编码器提取标签和文档的语义表示,减少其在建模相关性阶段的偏差。提出了一种基于先验知识的层次提示方法,利用预训练模型中的先验知识增强标签层次结构信息。实验结果表明,该方法在公开数据集上优于目前最先进的多标签文本分类模型。  相似文献   

4.
信息爆炸是信息化时代面临的普遍性问题, 为了从海量文本数据中快速提取出有价值的信息, 自动摘要技术成为自然语言处理(natural language processing, NLP)领域中的研究重点. 多文档摘要的目的是从一组具有相同主题的文档中精炼出重要内容, 帮助用户快速获取关键信息. 针对目前多文档摘要中存在的信息不全面、冗余度高的问题, 提出一种基于多粒度语义交互的抽取式摘要方法, 将多粒度语义交互网络与最大边界相关法(maximal marginal relevance, MMR)相结合, 通过不同粒度的语义交互训练句子的表示, 捕获不同粒度的关键信息, 从而保证摘要信息的全面性; 同时结合改进的MMR以保证摘要信息的低冗余度, 通过排序学习为输入的多篇文档中的各个句子打分并完成摘要句的抽取. 在Multi-News数据集上的实验结果表明基于多粒度语义交互的抽取式多文档摘要模型优于LexRank、TextRank等基准模型.  相似文献   

5.
针对现有多文档抽取方法不能很好地利用句子主题信息和语义信息的问题,提出一种融合多信息句子图模型的多文档摘要抽取方法。首先,以句子为节点,构建句子图模型;然后,将基于句子的贝叶斯主题模型和词向量模型得到的句子主题概率分布和句子语义相似度相融合,得到句子最终的相关性,结合主题信息和语义信息作为句子图模型的边权重;最后,借助句子图最小支配集的摘要方法来描述多文档摘要。该方法通过融合多信息的句子图模型,将句子间的主题信息、语义信息和关系信息相结合。实验结果表明,该方法能够有效地改进抽取摘要的综合性能。  相似文献   

6.
抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过层次化构建单词层级图和子句层级图来有效建模语义关系和结构关系。针对单词层级图和子句层级图这2个异构图的学习问题,设计具有不同层次更新机制的两层学习层来降低学习多种结构关系的难度。在单词层级图学习层,提出交替更新机制更新不同的粒度节点,以单词节点为载体通过图注意网络进行语义信息传递;在子句层级图学习层,提出两阶段分步学习更新机制聚合多种结构关系,第一阶段聚合同构关系,第二阶段基于注意力聚合异构关系。实验结果表明,与抽取式基准模型相比,该框架在Multinews数据集上取得了显著的性能提升,ROUGE-1、ROUGE-2和ROUGE-L分别提高0.88、0.23和2.27,消融实验结果也验证了两层学习层及其层次更新机制的有效性。  相似文献   

7.
本体驱动的半结构化Web生物数据抽取   总被引:3,自引:0,他引:3  
成瑜  何洁月 《计算机工程》2006,32(5):192-194
提出由本体驱动,并根据文档结构和特征匹配来进行信息定位和信息抽取的方法,并实现了一个用户指导的交互式信息抽取原型系统。有效地解决了信息抽取中涉及的同义词,一词多义等语义问题,以及数据项不完整和排序不固定的问题。  相似文献   

8.
为提高敏感数据抽取效果,提出了融合注意力机制的人机交互信息半监督敏感数据抽取方法。融合类卷积以及人机交互注意力机制构建融合交互注意力机制双向长短词记忆(Bi-LSTM-CRF)模型,通过模型的类卷积交互注意力机制将敏感词转化为字符矩阵,采用Bi-LSTM对该矩阵进行编码获得敏感词字符级特点的分布式排列,通过Bi-LSTM对该分布式排列的二次编码获得敏感词上下文信息的隐藏状态,基于该隐藏状态通过类卷积注意力层与交互注意力层进行注意力加权,获得类卷积注意力矩阵与交互注意力矩阵,拼接两个矩阵得到双层注意力矩阵,利用交互注意力层门控循环单元升级双层注意力矩阵成新的注意力矩阵,经全连接降维获取敏感词对应的预测标签,实现人机交互信息半监督敏感数据抽取。实验结果说明:该方法可有效降低敏感数据抽取复杂度,具有较高的敏感数据抽取查全率。  相似文献   

9.
实体关系抽取是构建知识图谱的主要任务之一,旨在确定句子中实体之间的关系类别.远程监督关系抽取方法通过将远程知识库与文本数据对齐来自动标记数据,已成为处理关系抽取任务的主要方式.为解决远程关系抽取不能充分利用单词之间的位置关系信息,并且没有考虑重叠关系之间语义相关性的问题,本文提出一种融合位置特征注意力和关系增强机制的远程监督关系抽取模型.该模型使用基于高斯算法的位置特征注意力机制重新分配句子中单词的权重,并且采用分段卷积神经网络和词级注意力来捕获句子特征.然后,利用基于自注意力的关系增强机制来捕获重叠关系之间的语义关联.在NYT10公共数据集上的实验结果表明,本文模型的性能优于所比较的基线关系抽取模型.  相似文献   

10.
肖琳  陈博理  黄鑫  刘华锋  景丽萍  于剑 《软件学报》2020,31(4):1079-1089
自大数据蓬勃发展以来,多标签分类一直是令人关注的重要问题,在现实生活中有许多实际应用,如文本分类、图像识别、视频注释、多媒体信息检索等.传统的多标签文本分类算法将标签视为没有语义信息的符号,然而,在许多情况下,文本的标签是具有特定语义的,标签的语义信息和文档的内容信息是有对应关系的,为了建立两者之间的联系并加以利用,提出了一种基于标签语义注意力的多标签文本分类(LAbel Semantic Attention Multi-label Classification,简称LASA)方法,依赖于文档的文本和对应的标签,在文档和标签之间共享单词表示.对于文档嵌入,使用双向长短时记忆(bi-directional long short-term memory,简称Bi-LSTM)获取每个单词的隐表示,通过使用标签语义注意力机制获得文档中每个单词的权重,从而考虑到每个单词对当前标签的重要性.另外,标签在语义空间里往往是相互关联的,使用标签的语义信息同时也考虑了标签的相关性.在标准多标签文本分类的数据集上得到的实验结果表明,所提出的方法能够有效地捕获重要的单词,并且其性能优于当前先进的多标签文本分类算法.  相似文献   

11.
李雄  丁治明  苏醒  郭黎敏 《计算机科学》2018,45(Z11):417-421, 438
本研究主要解决在大量文本数据中 抽取 关键语义信息的问题。文本是自然语言的信息载体,在分析和处理文本信息时,由于目标与方式不同,对文本信息的特征表达方式也各不相同。已有的语义抽取方法往往是针对单篇文本的,忽略了不同文本间的语义联系。为此,文中提出了基于词项聚类的文本语义标签提取方法。该方法以语义抽取为目标,以Hinton的分布式表示假说为文本信息的表达方式,并以最大化语义标签与原文本数据间的语义相似度为目标,使用聚类算法对语义标签进行聚类。实验表明,所提方法由于是基于全体词汇表对语义信息分布进行聚类计算的,因此在语义丰富度和表达能力上相比很多现有方法具有更好的表现。  相似文献   

12.
语义信息提取是对话系统的核心问题之一。研究限定领域对话系统的语义信息提取方法及其在中文手机导购领域的应用。给出手机销售领域的语义信息,介绍语义提取的总体技术框图,详细介绍正则表达式匹配、单句消歧、上下文消歧等关键技术的实现。测试结果表明,该方法能较好地完成对话中用户输入句子的语义信息提取任务。  相似文献   

13.
14.
词汇语义信息对中文实体关系抽取影响的比较   总被引:1,自引:0,他引:1  
提出一种将《同义词词林》和《知网》的语义信息融合到基于树核函数的中文关系抽取方法,并比较和分析了两种语义信息对中文实体关系抽取的影响,同时探讨了这两种语义信息与实体类型信息之间的相互关系。实验结果表明,该方法能在一定程度上提高中文关系抽取的性能;同时,《同义词词林》能补充实体类型信息的不足,因而无论是否加入实体类型信息,其语义信息都能大幅度地提高大部分关系类型的抽取性能;而《知网》则和实体类型信息存在冲突,因此在已知实体类型信息的前提下,仅能提高个别关系类型的抽取性能。  相似文献   

15.
关系抽取是自然语言处理和知识图谱构建的一项关键任务,现有小样本关系抽取方法无法有效获取和充分利用更多的文本语义信息,为此给出一个基于语义增强的多特征融合关系抽取方法(SMPC)并应用于小样本任务中。该方法构建了一个融合位置、词性和句法依存等信息的分段卷积神经网络最大化表示语义特征,并从维基百科中抽取细粒度语义信息,将其融入词嵌入,提高模型上下文共性学习。在两种场景下对不同基线方法进行实验,分别取得最高4%和10%的准确率提升,证明了该方法的有效性。  相似文献   

16.
文本主题提取技术能够有效地精炼文本消息,传统的中文文本由最基本的词语组成,由于词汇本身的信息粒度过小,针对词语进行中文信息抽取不能完整表达文本片段的语义信息。短语本身包含较为丰富的细粒度语义信息,更能表达出文本片段的主题性。本文提出基于双层语料过滤器(词性过滤器与短语扩展规则过滤器)的方法来进行文本语料的冗余信息过滤并抽取文本主题短语信息。实验证明,本文的方法具有一定的可靠性和应用性。  相似文献   

17.
网络化大数据时代的到来丰富了网络空间中的信息资源,然而由于数据资源类型的多样性及其增长的快速性,给网络空间的存储和信息资源的有效利用带来了压力和挑战。该文提出了一种基于潜在语义分析的文本指纹提取方法,该方法是对数据信息的一种压缩表示,是针对目前指纹提取方法语义缺失的一种改进。该方法主要通过奇异值分解获取原始文档的潜在语义特征,然后将原文档向量空间转换到与其对应的潜在语义空间,再根据随机超平面原理将该空间的文档转换成二进制数字指纹,最终用汉明距离来衡量指纹间的差异程度。实验以中国知网上的学术论文作为数据对象,通过对论文文本进行相似度实验和聚类实验对该文提出的方法进行实验验证。实验结果表明该方法能够较好地表征文档语义信息,进而验证了文本语义压缩表示的准确性和有效性。  相似文献   

18.
基于语义角色和概念图的信息抽取模型   总被引:3,自引:0,他引:3  
杨选选  张蕾 《计算机应用》2010,30(2):411-414
传统的信息抽取方法由于缺少语义信息的支持,抽取的准确率不高。针对这个问题提出了一种基于语义理解的信息抽取方法。一方面,把语义角色标注的浅层语义信息转换成概念图,无歧义地将抽取信息所包含的基本语义形式化;另一方面,通过概念图的相似度计算区分场景,并使用语义角色获取抽取模式,以提高抽取质量。实验结果表明,该方法取得了较好的效果。  相似文献   

19.
一种基于语义匹配的Web信息提取方法研究   总被引:1,自引:0,他引:1  
为了较好地解决信息过量难以消化、汉语词的歧义划分、Web信息形式不一致并且难以辨识的问题,文章提出了一种基于语义匹配的Web信息提取方法。该方法融合了网页分类、汉语分词、语义信息匹配方法,并给出了一种义素相似度,进而提出了一种基于语义的信息匹配方法来识别和提取网页信息项。基于这种Web信息提取方法的网上药品信息监管系统Web-MIND能够提取出网上药品广告的信息项,并具有较高的准确率。  相似文献   

20.
针对现有Web信息抽取技术存在的准确率不高,自动化程度较低以及通用性较弱等诸多不足,结合林产品贸易Web信息推送中对信息源进行结构化存储的需要,提出一种新的基于语义的林产品贸易Web信息抽取算法;充分分析并利用林产品贸易Web信息的特征,结合语义识别的基本原理,构建林产品贸易语义词典,同时利用所需抽取的目标信息在网页中的布局特征,结合信息熵理论提出了基于语义信息熵的目标信息自动定位抽取方法,以抽取需要的目标信息,并以一种结构化的形式存储于数据库中。通过实验对实际林产品贸易Web信息网页的抽取,证明了该算法能够降低人工干预,在林产品贸易信息推送中对信息源的处理具有较好的应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号