首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
复述生成旨在同一语言内将给定句子转换成语义一致表达不同的句子。目前,基于深度神经网络的复述生成模型的成功依赖于大规模的复述平行语料,当面向新的语言或新的领域时,模型性能急剧下降。面对这一困境,提出低资源的迭代式复述生成增强方法,最大化利用单语语料和小规模复述平行语料迭代式训练复述生成模型并生成复述伪数据,以此增强模型性能。此外,提出了句子流畅性、语义相近性和表达多样性为基准设计的伪数据筛选算法,选取高质量的复述伪数据参与每轮模型的迭代训练。在公开数据集Quora上的实验结果表明,提出的方法仅利用30%的复述语料在语义和多样性指标上均超过了基线模型,验证了所提方法的有效性。  相似文献   

2.
词语替代任务旨在为句子中的目标词寻找合适的替代词。基于预训练语言模型BERT的词语替代方法直接利用目标词的上下文信息生成替代候选词。由于标注数据资源的缺乏使得研究人员通常采用无监督的方法,这也限制了预训练模型在此任务上的适用性。考虑到现有的大规模复述语料中包含了大量的词语替代规则,该文提出一种通过复述模型生成替代候选词的方法。具体的做法是:利用复述语料训练一个神经复述模型;提出了一种只关注目标词变化的解码策略,用于从复述模型中生成替代词;根据文本生成评估指标计算替代词对原句意思的改变程度,对替代词排序。相对已有的词语替代方法,在两个广泛使用的数据集LS07和CoInCo上进行评估,该文提出的方法取得了显著的提高。  相似文献   

3.
命名实体识别是自然语言处理领域的一个重要任务,为许多上层应用提供支持。本文主要研究汉语开放域命名实体边界的识别。由于目前该任务尚缺乏训练语料,而人工标注语料的代价又太大,本文首先基于双语平行语料和英语句法分析器自动标注了一个汉语专有名词语料,另外基于汉语依存树库生成了一个名词复合短语语料,然后使用自学习方法将这两部分语料融合形成命名实体边界识别语料,同时训练边界识别模型。实验结果表明自学习的方法可以提高边界识别的准确率和召回率。  相似文献   

4.
根据话头自足句理论进行标点句的话头自足句识别任务,探究语言模型在该任务中的应用效果,进一步将该任务划分为单个标点句的话头自足句识别和标点句序列的话头自足句识别。在单个标点句的话头自足句识别任务中,对该任务在形式上进行了完整的定义,将其形式化为机器阅读理解任务。从结果来看,在《围城》语料上取得了83.46%的准确率,在"鱼类百科"语料上的准确率达到91.21%。在标点句序列的话头自足句识别任务中,利用单个标点句的话头自足句识别任务中训练好的模型,以流水线的方式进行标点句序列的话头自足句识别,在"鱼类百科"语料上的准确率达到82.03%。实验结果表明,提出的方法能够有效地提高中文话头自足句识别的准确率。  相似文献   

5.
问题复述识别旨在召回“同质异构”的问句对子(语义相同表述迥异的问句)和摒弃语义无关的噪声问句,对输入的问句对进行“是复述”和“非复述”的二相判别。现有预训练语言模型(如BERT、RoBERTa和MacBERT)被广泛应用于自然语言的语义编码,并取得了显著的性能优势。然而,其优势并未在问句复述问题的求解中得到充分的体现,原因在于: ①预训练语言模型对特定任务中精细的语义表示需求并不敏感; ②复述样本的“是与非”往往取决于极为微妙的语义差异。微调预训练语言模型成为提高其任务适应性的关键步骤,但其极大地依赖训练数据的数量(多样性)与质量(可靠性)。为此,该文提出一种基于生成模型的定向数据增强方法(DDA)。该方法能够利用诱导标签对神经生成网络进行引导,借以自动生成多样的复述和非复述的增强样本(即高迷惑性的异构样本),促进训练数据的自动扩展。此外,该文设计了一种多模型集成的标签投票机制,并用其修正增强样本的潜在标签错误,以此提高扩展数据的可靠性。在中文问题复述数据集LCQMC上的实验结果证明,与传统数据增强方法相比,该文方法生成的样本质量更高,且语义表达更加多元化。  相似文献   

6.
回译作为翻译中重要的数据增强方法,受到了越来越多研究者的关注。其基本思想为首先基于平行语料训练基础翻译模型,然后利用模型将单语语料翻译为目标语言,组合为新语料用于模型训练。然而在汉 越低资源场景下,训练得到的基础翻译模型性能较差,导致在其上应用回译方法得到的平行语料中含有较多噪声,较难用于下游任务。针对此问题,构建基于比例抽取的孪生网络筛选模型,通过训练使得模型可以识别平行句对和伪平行句对,在同一语义空间上对回译得到的伪平行语料进行筛选去噪,进而得到更优的平行语料。在汉越数据集上的实验结果表明,所提方法训练的模型的性能相较基线模型有显著提升。  相似文献   

7.
句子融合是为多个句子生成言简意赅、符合语法的句子,可应用到自动摘要、复述生成等自然语言处理任务。目前句子融合方法已取得一定成效,但还存在重要信息缺失、语义偏离原句等问题。该文提出基于Transformer和重要词识别的方法来缓解上述问题。该方法包括两个模块,(1)重要词识别模块:利用序列标注模型识别原句重要词;(2)句子融合模块:将重要词与原句输入到Transformer框架并利用BERT进行语义表示,然后在全连接层引入基于原句和词表获得的向量作为先验知识进行句子融合。基于NLPCC2017摘要任务集构建句子融合数据集,并进行相关实验,结果表明所提方法的性能明显优于基线系统。  相似文献   

8.
张俊驰  胡婕  刘梦赤 《计算机应用》2016,36(5):1290-1295
针对传统以句法分析为主的数据库自然语言接口系统识别用户语义准确率不高,且需要大量人工标注训练语料的问题,提出了一种基于复述的中文自然语言接口(NLIDB)实现方法。首先提取用户语句中表征数据库实体词,建立候选树集及对应的形式化自然语言表达;其次由网络问答语料训练得到的复述分类器筛选出语义最相近的表达;最后将相应的候选树转换为结构化查询语句(SQL)。实验表明该方法在美国地理问答语料(GeoQueries880)、餐饮问答语料(RestQueries250)上的F1值分别达到83.4%、90%,均优于句法分析方法。通过对比实验结果发现基于复述方法的数据库自然语言接口系统能更好地处理用户与数据库的语义鸿沟问题。  相似文献   

9.
传统基于深度学习的复述识别模型通常以关注文本表示为核心,忽略了对多粒度交互特征的挖掘与匹配.为此,建模文本交互空间,分别利用双向长短时记忆网络对两个候选复述句按条件编码,基于迭代隐状态的输出,通过逐词软对齐的方式从词、短语、句子等多个粒度层次推理并获取句子对的语义表示,最后综合不同视角的语义表达利用softmax实现二元分类.为解决复述标注训练语料不足,在超过580000句子对的数据集上利用语言建模任务对模型参数无监督预训练,再使用预训练好的参数在标准数据集上有监督微调.与先前最佳的神经网络模型相比,所提出模型在标准数据集MSRP上准确率提高2.96%,$F_1$值改善2%.所提出模型综合文本全局和局部匹配信息,多粒度、多视角地描述文本交互匹配模式,能够降低对人工特征工程的需求,具有良好的实用性.  相似文献   

10.
意图识别是口语理解中的重要任务,关乎整个对话系统的性能。针对新领域人机对话系统中训练语料较少,构建可训练语料十分昂贵的问题,提出一种利用胶囊网络改进领域判别器的领域适应方法。该方法利用领域对抗神经网络将源域的特征信息迁移至目标域中,此外,为了保证领域意图文本的特征质量,对源域和目标域的特征表示进行再次提取,充分获取意图文本的特征信息,捕捉不同领域的独有特征,提高领域的判别能力,保障领域适应任务的可靠性。在目标域仅包含少量样本的情况下,该方法在中文和英文数据集上的准确率分别达到了83.3%和88.9%。  相似文献   

11.
文本意图识别任务中常面临训练数据不足的问题,且由于文本数据离散性导致在标签不变的条件下进行数据增强并提高原模型性能具有一定困难,为解决小样本意图识别任务中的上述问题,提出一种分步式数据增强与阶段性训练策略相结合的方法.该方法从全局和局部两个角度将原始数据在全体语句和同类别中的样本对上进行递进式增强,并在模型训练期间根据递进层次的不同划分阶段进行学习,最后在多个意图识别数据集上进行实验以评估其有效性.实验结果表明,该方法可以有效提高小样本环境中意图识别模型的准确率,同时模型的稳定性也得到了提升.  相似文献   

12.
针对句子分类任务常面临着训练数据不足,而且文本语言具有离散性,在语义保留的条件下进行数据增强具有一定困难,语义一致性和多样性难以平衡的问题,本文提出一种惩罚生成式预训练语言模型的数据增强方法(punishing generative pre-trained transformer for data augmentation, PunishGPT-DA)。设计了惩罚项和超参数α,与负对数似然损失函数共同作用微调GPT-2(generative pre-training 2.0),鼓励模型关注那些预测概率较小但仍然合理的输出;使用基于双向编码器表征模型(bidirectional encoder representation from transformers,BERT)的过滤器过滤语义偏差较大的生成样本。本文方法实现了对训练集16倍扩充,与GPT-2相比,在意图识别、问题分类以及情感分析3个任务上的准确率分别提升了1.1%、4.9%和8.7%。实验结果表明,本文提出的方法能够同时有效地控制一致性和多样性需求,提升下游任务模型的训练性能。  相似文献   

13.
评价对象抽取主要用于文本的意见挖掘,旨在发掘评论文本中的评价对象实体。基于无监督的自编码器方法可以识别评论语料库中潜藏的主题信息,且无需人工标注语料,但自编码器抽取的评价对象缺乏多样性。提出一种基于监督学习的句子级分类任务和无监督学习自编码器混合模型。该模型通过训练一个分类器生成评价对象类别,对自编码器共享分类任务中的LSTM-Attention结构进行编码得到句向量表征,以增加语义关联度,根据得到的评价对象类别将句向量表征转化为中间层语义向量,从而捕捉到评价对象类别与评价对象之间的相关性,提高编码器的编码能力,最终通过对句向量的重构进行解码得到评价对象矩阵,并依据计算评价对象矩阵与句中单词的余弦相似度完成评价对象的抽取。在多领域评论语料库上的实验结果表明,与k-means、LocLDA等方法相比,该方法评价指标在餐厅领域中提升了3.7%,在酒店领域中提升了2.1%,可有效解决训练过程缺少评价类别多样性的问题,具有较好的评价对象抽取能力。  相似文献   

14.
结合对维吾尔语语言的特点分析,该文提出一种基于深度卷积神经网络(deep convolutional neural networks,DCNNs)联合长短期记忆网络(long-short term memory,LSTM)实现的维吾尔语文本突发事件识别方法。该方法提取突发事件包含六大特征块,并在特征集中引入富含词汇语义及上下文位置关系的Word Embedding,利用DCNNs对黏着性语言特征抽象化的学习能力抽取事件句中的高阶局部特征,以此作为LSTM网络的输入,利用其对于事件句中抽象含义序列关系的捕获特性获取全局特征,训练 Softmax分类器完成维吾尔语突发事件的识别任务。该方法在维吾尔语突发事件识别中的准确率达到80.60%,召回率81.39%,F值80.99%。实验结果表明,与不同层数的DCNNs和独立的LSTM网络相比,DCNNs-LSTM模型更具备挖掘隐含上下文深层语义信息的能力,对Word Embedding特征项的引入有效地提高了模型识别性能。  相似文献   

15.
复述生成是一种基于自然语言生成(NLG)的文本数据增强方法。针对基于Seq2Seq(Sequence-toSequence)框架的复述生成方法中出现的生成重复、语意错误及多样性差的问题,提出一种基于序列与图的联合学习复述生成网络(J-SGPGN)。J-SGPGN的编码器融合了图编码和序列编码进行特征增强,而解码器中则设计了序列生成和图生成两种解码方式并行解码;然后采用联合学习方法训练模型,旨在兼顾句法监督与语义监督以同步提升生成的准确性和多样性。在Quora数据集上的实验结果表明,J-SGPGN的生成准确性指标METEOR(Metric for Evaluation of Translation with Explicit ORdering)较准确性最优基线模型——RNN+GCN提升了3.44个百分点,生成多样性指标Self-BLEU(Self-BiLingual Evaluation Understudy)较多样性最优基线模型——多轮回译复述生成(BTmPG)模型降低了12.79个百分点。J-SGPGN能够生成语义更准确、表达方式更多样的复述文本。  相似文献   

16.
组合原则表明句子的语义由其构成成分的语义按照一定规则组合而成,由此基于句法结构的语义组合计算一直是一个重要的探索方向,其中采用树结构的组合计算方法最具有代表性。但是该方法难以应用于大规模数据处理,主要问题是其语义组合的顺序依赖于具体树的结构,无法实现并行处理。该文提出一种基于图的依存句法分析和语义组合计算的联合框架,并借助复述识别任务训练语义组合模型和句法分析模型。一方面,图模型可以在训练和预测阶段采用并行处理,极大地缩短计算时间;另一方面,联合句法分析的语义组合框架不必依赖外部句法分析器,同时两个任务的联合学习可使语义表示同时学习句法结构和语义的上下文信息。我们在公开汉语复述识别数据集LCQMC上进行评测,实验结果显示准确率接近树结构组合方法,达到79.54%,预测速度最高可提升30倍以上。  相似文献   

17.
词义消歧一直是自然语言处理领域中的关键性问题。为了提高词义消歧的准确率,从目标歧义词汇出发,挖掘左右词单元的语义知识。以贝叶斯模型为基础,结合左右词单元的语义信息,提出了一种新的词义消歧方法。以SemEval-2007:Task#5作为训练语料和测试语料,对词义消歧分类器进行优化,并对优化后的分类器进行测试。实验结果表明:词义消歧的准确率有所提高。  相似文献   

18.
基于编码—解码(端到端)结构的机器翻译逐渐成为自然语言处理之机器翻译的主流方法,其翻译质量较高且流畅度较好,但依然存在词汇受限、上下文语义信息丢失严重等问题。该文首先进行语料预处理,给出一种Transformer-CRF算法来进行蒙古语词素和汉语分词的预处理方法。然后构建了基于Tensor2Tensor的编码—解码模型,为了从蒙古语语料中学习更多的语法和语义知识,该文给出了一种基于词素四元组编码的词向量作为编码器输入,解码阶段。为了进一步缓解神经网络训练时出现的词汇受限问题,该文将专有名词词典引入翻译模型来进一步提高翻译质量和译文忠实度。根据构建模型对不同长度句子进行实验对比,表明模型在处理长时依赖问题上翻译性能得到提高。  相似文献   

19.
在当前自然语言处理多意图识别模型研究中,存在建模方式均为从意图到插槽的单一方向的信息流建模,忽视了插槽到意图的信息流交互建模研究,意图识别任务易于混淆且错误捕获其他意图信息,上下文语义特征提取质量不佳,有待进一步提升等问题.本文以当前先进的典型代表GL-GIN模型为基础,进行优化改进,探索了插槽到意图的交互建模方法,运用槽到意图的单向注意力层,计算插槽到意图的注意力得分,纳入注意力机制,利用插槽到意图的注意力得分作为连接权重,使其可以传播和聚集与意图相关的插槽信息,使意图重点关注与其相关的插槽信息,从而实现多意图识别模型的双向信息流动;同时,引入BERT模型作为编码层,以提升了语义特征提取质量.实验表明,该交互建模方法效果提升明显,与原GL-GIN模型相比,在两个公共数据集(MixATIS和MixSNIPS)上,新模型的总准确率分别提高了5.2%和9%.  相似文献   

20.
意图识别与语义槽填充联合建模正成为口语理解(Spoken Language Understanding,SLU)的新趋势。但是,现有的联合模型只是简单地将两个任务进行关联,建立了两任务间的单向联系,未充分利用两任务之间的关联关系。考虑到意图识别与语义槽填充的双向关联关系可以使两任务相互促进,提出了一种基于门控机制的双向关联模型(BiAss-Gate),将两个任务的上下文信息进行融合,深度挖掘意图识别与语义槽填充之间的联系,从而优化口语理解的整体性能。实验表明,所提模型BiAss-Gate在ATIS和Snips数据集上,语义槽填充F1值最高达95.8%,意图识别准确率最高达98.29%,对比其他模型性能得到了显著提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号