期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

苏玉兰洪宇朱鸿雨武恺莉张民《中文信息学报》2022,36(3):91-100

问题生成的核心任务是"在给定上下文语境的前提下,对目标答案自动生成相应的疑问句".问题生成是自然语言处理领域中富有挑战性的任务之一,其对可靠的语义编码和解码技术有着极高的要求.目前,预训练语言模型已在不同自然语言处理任务中得到广泛应用,并取得了较好的应用效果.该文继承这一趋势,尝试将预训练语言模型UNILM应用于现有"... 相似文献

2.

面向问题复述识别的定向数据增强方法

朱鸿雨金志凌洪宇苏玉兰张民《中文信息学报》2022,36(9):38-45

问题复述识别旨在召回“同质异构”的问句对子(语义相同表述迥异的问句)和摒弃语义无关的噪声问句,对输入的问句对进行“是复述”和“非复述”的二相判别。现有预训练语言模型(如BERT、RoBERTa和MacBERT)被广泛应用于自然语言的语义编码,并取得了显著的性能优势。然而,其优势并未在问句复述问题的求解中得到充分的体现,原因在于: ①预训练语言模型对特定任务中精细的语义表示需求并不敏感; ②复述样本的“是与非”往往取决于极为微妙的语义差异。微调预训练语言模型成为提高其任务适应性的关键步骤,但其极大地依赖训练数据的数量(多样性)与质量(可靠性)。为此,该文提出一种基于生成模型的定向数据增强方法(DDA)。该方法能够利用诱导标签对神经生成网络进行引导,借以自动生成多样的复述和非复述的增强样本(即高迷惑性的异构样本),促进训练数据的自动扩展。此外,该文设计了一种多模型集成的标签投票机制,并用其修正增强样本的潜在标签错误,以此提高扩展数据的可靠性。在中文问题复述数据集LCQMC上的实验结果证明,与传统数据增强方法相比,该文方法生成的样本质量更高,且语义表达更加多元化。相似文献

3.

结合问题类型及惩罚机制的问题生成

武恺莉朱朦朦朱鸿雨张熠天洪宇《中文信息学报》2021,35(4):110-119

问题生成旨在理解输入端的语义,从而自动生成疑问句.该文主要解决目标答案可知的问题生成任务,输入为陈述句和目标答案,输出为疑问句,该疑问句的答案为给定的目标答案.为了提高问题类型的准确率,使问句的表述更确切,该文提出一种融合问题类型及惩罚机制的问题生成模型,首先使用预训练BERT模型对问题类型进行分类,得到对应问题类型的... 相似文献

4.

基于多粒度交互推理的答案选择方法研究

金志凌朱鸿雨苏玉兰唐竑轩洪宇张民《中文信息学报》2023,(1):104-111+120

预训练语言模型已经广泛应用于不同自然语言处理任务,其蕴含的自注意力机制能够在“文本对子”之上形成统一的语义编码表示,从而使BERT模型的输入结构和运算模式理论上适用于处理“目标问题和候选答案”样本。然而,直接应用BERT等语言模型将面临两种局限性：(1)BERT并不侧重词块、短语和子句的独立语义信息表示,使得文本在匹配过程中往往错失不同颗粒度语义相关性的感知;(2)BERT中的多头注意力机制不能在不同粒度的语义结构之间计算交互强度(相关性)。针对上述问题,该文提出一种基于BERT的多粒度交互推理网络,该方法将问题与候选答案的语言信息进行多粒度语义编码,丰富了句子间的语义信息与交互性。此外,该文提出句子级的编码损失策略,借以提高编码过程对关键子句的加权能力。在WPQA数据集上的实验结果显示,该方法有效提高了非事实性问题的答案选择性能。相似文献