共查询到19条相似文献,搜索用时 156 毫秒
1.
2.
基于语义的中文事件触发词抽取联合模型 总被引:1,自引:0,他引:1
中文事件触发词抽取是一项具有挑战性的任务.针对中文事件触发词抽取中存在的事件论元语义信息难以获取以及部分贫信息事件实例难以抽取的问题,提出了基于语义的中文事件触发词抽取联合学习模型.首先,根据中文句子结构灵活和句法成分多省略的特点,提出了基于模式匹配的核心论元和辅助论元抽取方法,这两类论元可以较好地表示论元语义,进一步提高中文事件触发词抽取性能;其次,根据同一文档中关联事件实例间存在的高度一致性,构造了一个关联事件语义驱动的中文事件触发词识别和类型分配二维联合模型,用于抽取贫信息事件实例.在ACE 2005中文语料上的实验结果表明:与现有最好的中文事件抽取系统相比,所提出方法的性能得到了明显提升. 相似文献
3.
4.
事件抽取是自然语言处理领域的一项基本任务。以问题回答模式进行事件抽取可以解决传统事件抽取方法存在的无法捕捉到不同事件类型中具有相似性的参数角色的语义信息等问题。目前相关学者以该模式提出的英文事件抽取方法受语言壁垒限制,其提出的问题模板在中文文本上提取效果不理想。为解决此问题,设计了一套符合中文事件抽取的问题模板的生成规则,选择BERT预训练模型作为中文事件抽取的基础模型,将问题回答模式应用到中文事件抽取任务中,并在ACE2005中文数据集进行测试。结果显示,在触发词识别、触发词分类、论元参数识别和论元参数的评价指标上,F1值分别达到77.7%、68.5%、51.5%和48.0%,在一定程度上验证了设计的问题模板的生成规则的有效性以及将问题回答模式应用到中文事件抽取任务中具有良好的抽取性能。 相似文献
5.
当前,突发热点事件的传播日益迅猛与广泛.如何通过事件抽取准确快速地抽取出事件触发词及其事件元素,有助于决策者分析舆情态势、引导社会舆论.针对现有事件抽取方法多是从单个句子中抽取事件元素,而突发热点事件的事件元素往往分布在多个句子当中的问题,提出了一种基于图注意力网络的突发热点事件联合抽取方法,该方法分为三个阶段:基于TextRank的事件句抽取、基于图注意力网络的篇章级事件联合抽取、突发热点事件补全.在抽取出新闻主旨事件以后对整篇新闻做事件抽取,利用候选事件与新闻主旨事件的事件向量相似度以及事件论元相似度对该新闻主旨事件进行补全.实验结果表明,该方法在DUEE1.0数据集上进行触发词抽取和论元角色抽取任务时的F1指标分别达到83.2%、59.1%;在中文突发事件语料库上进行触发词抽取和论元角色抽取任务时的F1指标分别达到82.7%、58.7%,验证了模型的合理性和有效性. 相似文献
6.
7.
事件检测与分类是事件抽取的关键环节,触发词抽取是完成事件检测与分类的主流方法。提出了一种事件触发词抽取方法,该方法针对单一触发词抽取方法没有充分利用依存句法分析信息且召回率不高的问题,通过综合利用依存句法分析信息和其他信息抽取触发词-实体描述对的方法来提高触发词抽取的召回率,然后将触发词-实体描述对抽取结果与单一触发词抽取结果相融合以避免召回率提高所带来的准确率下降问题。在ACE2005中文语料上进行实验,该方法在事件检测与分类任务中取得较好效果,F值分别达到了69.0%和66.2%。 相似文献
8.
事件抽取是信息抽取的主要任务之一,而触发词抽取是事件抽取的重要子任务.事件要素与事件触发词之间存在关联信息,现有的事件触发词抽取方法主要关注事件触发词本身,没有充分的利用事件要素信息.因此,提出一种事件要素注意力与编码层融合的事件触发词抽取模型,能够有效地利用事件要素信息,提高触发词抽取性能.通过事件要素与事件触发词之间的相关性来显示利用事件要素信息,同时利用编码层的多头自注意力机制间接学习事件要素与事件触发词之间的依赖关系,并将两个方法得到的输出向量进行处理,作为特征送入到编码层中进行训练.此外,通过词特征模型获取语义信息.该方法在ACE2005英文语料上对事件触发词抽取的F值达到71.95%. 相似文献
9.
10.
现有的中文事件抽取方法存在触发词和论元依赖建模不足的问题,削弱事件内的信息交互,导致论元抽取性能低下,特别是论元角色存在重叠的情况下.对此,文中提出基于图注意力和表指针网络的中文事件抽取方法(Chinese Event Extraction Method Based on Graph Attention and Table Pointer Network, ATCEE).首先,融合预训练字符向量和词性标注向量作为特征输入,并利用双向长短期记忆网络,得到事件文本的强化语义特征.再将字符级建模的依存句法图引入图注意力网络,捕获文本中各组成成分的长距离依赖关系.然后,使用表填充的方法进行特征融合,进一步增强触发词和其对应的所有论元之间的依赖性.最后,将学习得到的表特征输入全连接层和表指针网络层,进行触发词和论元的联合抽取,使用表指针网络对论元边界进行解码,更好地识别长论元实体.实验表明:ATCEE在ACE2005和DuEE1.0这两个中文基准数据集上都有明显的性能提升,并且字符级依存特征和表填充策略在一定程度上可以解决论元角色重叠问题.ATCEE源代码地址如下:https://github.... 相似文献
11.
采用基于BootStrapping的方法实现中文事件元素抽取系统。其中,将事件元素抽取定义为一个模式匹配问题。针对这一问题,首先构建了初始种子集,然后创新性地引入了BootStrapping方法构建模板集,并使用模式匹配的方法进行事件元素抽取。在模板构造过程中,提出了基于BestMatch的模板泛化算法[1]。对任意两个事件实例模板[2]进行匹配,计算其匹配代价并泛化,提高了模板的覆盖能力。所实现的系统在ACE 2005语料测试中取得了不错结果。 相似文献
12.
关系抽取是信息抽取中一项重要任务,在处理问答对形式的文本时,除了文本中实体间的关系抽取之外,作为连接问句和答句之间关系的提问模式同样需要抽取。通过有监督的标注算法(条件随机场)与基于模板元组自举的半监督算法的结合在抽取实体间关系时有不错的表现。但传统半监督中发现句式模板的方式难以迁移到提问模式抽取中,因此,本文提出了一种基于sentence2vec技术与半监督算法结合的模型。对于最终实验,本文采用随机抽样进行验证。实验结果表明,相较于传统的半监督算法,本文的方法得到了更高的准确率和召回率. 相似文献
13.
汉语句型自动分析和分布统计算法与策略的研究 总被引:9,自引:1,他引:8
汉语句型的自动分析与分布统计是继我国汉字字频统计和词频统计之后的又一重要的基础性研究课题。本文就以结构特征为标准的句型系统,提出以谓语为中心的句型成分分析与句型匹配相结合的分析算法与策略,讨论了句型成分及其短语边界的识别与判定方法,给出了有关歧义结构的处理策略,以及实验模型的测试结果与分析。 相似文献
14.
15.
事件抽取是信息抽取领域最具有挑战性的任务之一,也是知识图谱构建中的关键技术。事件抽取在阅读理解、文本摘要、问答系统等领域得到了广泛的应用。限定域事件抽取指的是系统所抽取的事件类型是预定义的,因此针对某一特定领域,限定域事件抽取的研究更具有研究价值,而且中文事件抽取由于中文语言特性问题,面临着较大挑战。介绍了中文事件抽取中面对的挑战,对限定域中文事件抽取的主要方法进行归纳总结,重点介绍了基于深度学习的方法,并总结了少样本情况下的事件抽取方法,介绍了中文事件抽取常用的数据集,展望了中文事件抽取未来的发展趋势。 相似文献
16.
基于多层模式的多记录网页信息抽取方法 总被引:3,自引:0,他引:3
为有效解决网页信息抽取所需知识的获取问题,提出一种基于多层模式的网信息抽取方法,(简称HPIE方法)。将网页信息抽取知识分为若干层,由抽象到具体逐层描述信息识别模式知识。HPIE方法能够利用各抽取对象之间存在的相互联系,以及抽取过程与结构所表成的新学习样本,不断完善多层模式的知识内容,并帮助最终从多个信息内容类似但其描述格式各异的HTML网页中,抽取出所需的多记录信息内容,有关多个(美国大学教员)论文目录网页的抽取实验结果表明,HPIE方法具有较强的网而信息自适应抽取能力。 相似文献
17.
为了减少枯燥和耗时的训练进程和提高脑机接口系统的分类率,将半监督学习运用到了运动想象脑电的分类中,提出了一种基于分段重叠共空间模式的自训练算法,将分段重叠共空间模式作为特征提取算法,使用少量标记的数据进行学习,然后使用置信度评估准则从未标记样本中挑选信息量大的样本来提高线性判别分类器的性能。提出的算法在少量标记样本和大量未标记样本的帮助下,能够获得比基于共空间模式作为特征提取的自训练算法和基于滤波带宽共空间模式作为特征提取的自训练算法有更好的分类效果。使用2005 BCI竞赛的数据集Iva来证明算法的有效性,结果表明了提出的算法能有效提高运动想象脑电的分类率。 相似文献
18.