共查询到10条相似文献,搜索用时 219 毫秒
1.
由于缺乏显式连接词,隐式篇章关系识别是一个具有挑战性的任务.文中提出了一种结合主动学习和多任务学习来间接扩充隐式篇章关系训练数据的隐式篇章关系识别方法,旨在在增强训练数据的同时尽量少地引入伪隐式篇章关系数据中的噪声.首先,基于BERT模型通过主动学习方法的分类不确定性来选择部分显式篇章关系样本;然后,移除显式篇章关系数据中的显式连接词作为伪隐式篇章关系数据;最后,采用多任务学习方法使伪隐式篇章关系数据有助于隐式篇章关系识别.在中文篇章树库(CDTB)上进行的实验的结果显示,相比基准模型,所提方法在宏平均F1、微平均F1值上均得到了提高. 相似文献
2.
3.
基于Penn Discourse TreeBank(简称PDTB)语料中的隐式篇章关系类型,提出一种无指导的识别方法。主要依据显式与隐式平行论元对之间的映射关系实现显式到隐式关系的推理,即利用显式论元对的篇章关系,推理与之平行的隐式论元对的篇章关系。推理过程主要包括:基于大规模语料库以及基于搜索引擎的平行语料挖掘,平行语料中显式连接词映射到篇章关系过程的消歧。与传统基于监督学习的分类方法相比,基于统计的无指导方法在隐式篇章关系推理的性能上获得显著提升,识别精确率提高了近15.6%。此外,在分析比较各研究方法的同时,指出目前隐式篇章关系推理研究所面临的主要困难与挑战。 相似文献
4.
5.
篇章关系识别是篇章分析的核心组成部分。汉语中,缺少显式连接词的隐式篇章关系占比很高,篇章关系识别更具挑战性。该文给出了一个基于多层局部推理的汉语篇章关系及主次联合识别方法。该方法借助双向LSTM和多头自注意力机制进行篇章关系对应论元的表征;进一步借助软对齐方式获取论元间局部语义的推理权重,形成论元间交互语义信息的表征;再将两类信息结合进行篇章关系的局部推理,并通过堆叠多层局部推理部件构建了汉语篇章关系及主次联合识别框架,在CDTB语料库上的关系识别F1值达到了67.0%。该文进一步将该联合识别模块嵌入一个基于转移的篇章解析器,在自动生成的篇章结构下进行篇章关系及主次的联合分析,形成了完整的汉语篇章解析器。 相似文献
6.
篇章关系分为显式和隐式两种。显式关系的显著特征是篇章的基本单元之间存在显式连接词。针对汉语显式篇章关系,构建了包括汉语连接词识别和篇章关系分类的显式篇章关系分析平台。该文选取汉语宾州树库(Chinese Penn Treebank, CTB)中的500篇文本进行了汉语显式篇章关系标注;结合连接词的中心词,采用最大熵分类器构建了汉语连接词识别模块,其性能F1值达到了66.79%;基于连接词及其词性等上下文特征,构建了篇章关系分类器,其在最顶层4大类语义关系上的分类性能的F1值为91.92%。 相似文献
7.
功能连接词是一种直接表述篇章单元内部语义关系、结构特性和语境发展趋势的词特征。借助功能连接词的这一优势,该文提出一种基于功能连接词的隐式篇章关系推理方法。该方法首先挖掘词级与短语级的功能连接词,划分功能连接词的篇章关系类别;其次,为每个功能连接词构建概念模型,借以描述由功能连接词连接的论元属性,并建立论元概念与篇章关系的映射体系;最后,利用统计策略识别待测论元的概念模型,并借助“概念—关系”映射体系,实现隐式篇章语义关系推理。实验结果显示,该文基于功能连接词构建概念模型的推理方法,相较于现有的基于监督学习的分类方法,系统性能获得显著提升。 相似文献
8.
隐式篇章关系识别是篇章关系识别的子任务,其挑战性在于难以学习到具有丰富语义信息和交互信息的论元表示。针对这一难点,该文提出一种基于图卷积神经网络(Graph Convolutional Network,GCN)的隐式篇章关系分类方法。该方法采用预训练语言模型BERT(Bidirectional Encoder Representation from Transformers)编码论元以获取论元表示,再分别拼接论元表示和注意力分数矩阵作为特征矩阵和邻接矩阵,构造基于图卷积神经网络的分类模型,从而根据论元自身信息以及交互信息对论元表示进行调整,以得到有助于隐式篇章关系识别的论元表示。该文利用宾州篇章树库(Penn Discourse Treebank,PDTB)语料进行实验,实验结果表明,该方法在四大类关系上分类性能优于基准模型BERT,且其在偶然(Contingency)关系和扩展(Expansion)关系上优于目前先进模型,F1值分别达到60.70%和74.49%。 相似文献
9.
中文隐式篇章关系识别是一个具有挑战性的任务,其难点在于如何捕获论元的语义信息。该文提出了一个模拟人类双向阅读和重复阅读过程的三层注意力网络模型(TLAN)用于识别中文隐式篇章关系。首先,使用Self-Attention层对论元进行编码;然后,通过细粒度的Interactive Attention层模拟双向阅读过程以生成包含交互信息的论元表示,并且通过非线性变换获得论元对信息的外部记忆;最后,通过包含外部记忆的注意力层来模拟重复阅读过程,在论元对记忆的引导下生成论元的最终表示。在中文篇章树库(CDTB)上进行的隐式篇章关系识别实验结果显示,该文提出的模型TLAN在Micro-F1和Macro-F1上超过了多个基准模型。 相似文献
10.
隐式篇章关系识别是自然语言处理中一项富有挑战性的任务,旨在判断缺少连接词的两个论元(子句或者句子)之间的语义关系(例如转折)。近年来,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的隐式篇章关系识别方法取得了不错的效果,其性能全面超越了早期基于人工特征的方法。文中分三大类对最近的隐式篇章关系识别方法进行讨论:基于论元编码的方法、基于论元交互的方法和引入显式篇章数据的半监督方法。在PDTB数据集上的实验结果显示:1)通过显式地建模论元中词或文本片段之间的语义关系,基于论元交互的方法的性能明显好于基于论元编码的方法;2)引入显式篇章数据的半监督方法能有效地缓解数据稀疏问题,从而进一步提升识别的性能。最后,分析了当前面临的主要问题,并指出了未来可能的研究方向。 相似文献