共查询到19条相似文献,搜索用时 171 毫秒
1.
探究面向领域智能问答中自然语言理解的数据增强问题。由于应用缺乏历史数据,且人工标注成本高,无法满足大规模训练自然语言理解模型的需求。因此,对传统数据增强的方法进行研究,提出使用基于对比搜索的关键字文本生成模型,以此生成了具有句式表达多样性的的数据集。实验结果表明,相比传统的集中搜索算法,使用对比搜索作为模型的解码策略能够生成更加准确和合理的电力领域问题文本,有效地降低了生成文本的词重复率。利用这些样本数据,成功地训练了一个高效准确的自然语言理解模型,提高了用户意图识别的准确率。这一研究对于智能问答领域的实际应用具有一定的参考价值。 相似文献
2.
3.
机器阅读理解旨在训练模型使其拥有理解自然语言并回答问题的能力,以便于以较低的人力解决现实世界中的问题。该文提出了一种面向特定领域(餐饮行业)的中文阅读理解数据集——Restaurant(Res)。该数据集的初始数据来自大众点评应用程序,以餐饮行业的用户评论为初始文本,标注者在此基础上提出问题并给出答案。目前Res数据集有两个版本,Res_v1中所有问题的答案都可以在用户评论中找到,Res_v2在Res_v1的基础上增加评论中没有答案的问题,进一步契合现实场景。该文在此数据集上应用主流的BiDAF、QANet和Bert模型进行实验,实验结果显示该数据集上最高的准确率只有73.78%,相比于人类接近91.03%的正确率仍有较大差距。 相似文献
4.
机器阅读理解作为自然语言理解的关键任务,受到国内外学者广泛关注。针对多项选择型阅读理解中无线索标注且涉及多步推理致使候选句抽取困难的问题,该文提出一种基于多模块联合的候选句抽取模型。首先采用部分标注数据微调预训练模型;然后通过TF-IDF递归式抽取多跳推理问题中的候选句;最后结合无监督方式进一步筛选模型预测结果降低冗余性。该文在高考语文选择题及RACE数据集上进行验证,在候选句抽取中,该方法相比于最优基线模型F1值提升3.44%,在下游答题任务中采用候选句作为模型输入较全文输入时准确率分别提高3.68%和3.6%,上述结果证实该文所提方法的有效性。 相似文献
5.
6.
7.
高考语文阅读理解问答相对普通阅读理解问答难度更大,同时高考问答任务中的训练数据较少,目前的深度学习方法不能取得良好的答题效果。针对这些问题,该文提出融合BERT语义表示的高考阅读理解答案候选句抽取方法。首先,采用改进的MMR算法对段落进行筛选;其次,运用微调之后的BERT模型对句子进行语义表示;再次,通过SoftMax分类器对答案候选句进行抽取,最后利用PageRank排序算法对输出结果进行二次排序。该方法在北京近十年高考语文阅读理解问答题上的召回率和准确率分别达到了61.2%和50.1%,验证了该方法的有效性。 相似文献
8.
事件抽取旨在从海量的非结构化文本中自动提取出结构化描述信息,以帮助人们快速地了解事件的最新发展动态。传统的事件抽取方法主要采用分类或者序列标注的方法,其依赖于大量的标注数据来训练模型。近年来,研究者提出了利用机器阅读理解模型来进行事件抽取的方法,通过任务转换并联合利用机器阅读理解任务中的标注数据进行训练来缓解标注数据的不足。然而现有方法局限于单轮问答,问答对之间缺少依赖关系;此外,已有方法也未充分利用句子中的实体信息等知识。针对以上不足,提出了一种会话式机器阅读理解框架用于事件抽取,针对已有方法进行了两方面的扩展:首先,通过在句子中显式地增加实体标记信息,使得模型能够有效地学习到输入句子中的实体知识;其次,设计了历史会话信息编码模块,并结合注意力机制从历史会话中筛选出重要信息,融合到阅读理解模型中以辅助推断。最后,在公开数据集上的实验结果表明所提模型相比已有方法取得了更优的结果。 相似文献
9.
开放域问答系统通常可以借助一些数据冗余方法来提高问答准确性,而对于缺乏大规模领域语料的领域相关问答系统来说,准确理解用户的意图成为这类系统的关键。该文首先定义了一种带约束语义文法,与本体等语义资源相结合,可以在词汇级、句法级、语义级对自然语言句子的解析过程进行约束,解决自然语言理解歧义问题;然后给出了一个高效的文法匹配算法,其首先依据定义的各种约束条件预先过滤一些规则,然后依据提出的匹配度计算模型对候选的规则进行排序,找到最佳匹配。为了验证方法的有效性,将方法应用到两个实际的应用领域的信息查询系统。实验结果表明,本系统提出的方法切实有效,系统理解准确率分别达到了82.4%和86.2%,MRR值分别达到了91.6%和93.5%。 相似文献
10.
11.
基于最大熵模型的中文阅读理解问题回答技术研究 总被引:2,自引:1,他引:1
该文基于山西大学自主开发的中文阅读理解语料库CRCC v1.1版,根据问句和候选答案句的对应关系,构建了词层面以及句法层面共计35个特征,基于最大熵模型对中文阅读理解问题回答进行了建模,在35个特征全部加入最大熵模型的情况下,测试集上得到了75.46%的HumSent准确率。考虑到特征取值之间的相关性对权重估计的影响,笔者先对35个特征观测值矩阵进行主成分降维,选择适当的主成分个数重构特征,然后再使用最大熵模型进行建模,在测试集上的HumSent准确率达到80.18%. 实验结果表明,在阅读理解问答系统中,采用特征的主成分降维方法,能有效融合全部特征信息,回避了最大熵模型中特征筛选的过程,并且提高了阅读理解系统的准确率。 相似文献
12.
13.
Liujuan Cao Huafeng Kuang Hong Liu Yan Wang Baochang Zhang Feiyue Huang Yongjian Wu Rongrong Ji 《International Journal of Software and Informatics》2022,12(2):177-193
Recent studies have shown that adversarial training is an effective method to defend against adversarial sample attacks. However, existing adversarial training strategies improve the model robustness at a price of a lowered generalization ability of the model. At this stage, the mainstream adversarial training methods usually deal with each training sample independently and ignore the inter-sample relationships, which prevents the model from fully exploiting the geometric relationship between samples to learn a more robust model for better defense against adversarial attacks. Therefore, this paper focuses on how to maintain the stability of the geometric structure between samples during adversarial training to improve the model robustness. Specifically, in adversarial training, a new geometric structure constraint method is designed with the aim to maintain the consistency of the feature space distribution between normal samples and adversarial samples. Furthermore, a dual-label supervised learning method is proposed, which leverages the labels of both natural samples and adversarial samples for joint supervised training of the model. Lastly, the characteristics of the dual-label supervised learning method are analyzed, and the working mechanism of the adversarial samples are explained theoretically. It is concluded from extensive experiments on benchmark datasets that the proposed approach effectively improves the robustness of the model while maintaining good generalization accuracy. The related code has been open-sourced: https://github.com/SkyKuang/DGCAT 相似文献
14.
机器阅读理解作为一种微阅读模式近年来在自动问答领域受到广泛关注,针对机器阅读理解中多对一的文本蕴含问题,该文首先构造了8 000级别的多句—单句中文文本蕴含语料M2OCTE,其次采用了层级神经网络模型,有效融合多个句子之间的语义信息,将多对一的蕴含对表达成统一的形式,实现端到端的输出。该方法在高考现代文阅读理解蕴含数据集上的准确率为58.92%,比将多句—单句的文本蕴含转换为单句—单句之后进行处理的准确率要高。同时也在英文数据集上进行了测试,实验结果验证了该方法的有效性。 相似文献
15.
机器阅读理解是自然语言处理领域中的一项重要研究任务,高考阅读理解自动答题是近年来阅读理解任务中的又一挑战。目前高考语文阅读理解任务中真题和模拟题的数量相对较少,基于深度学习的方法受到实验数据规模较小的限制,所得的实验结果相比传统方法无明显优势。基于此,该文探索了面向高考语文阅读理解的数据增强方法,结合传统的EDA数据增强思路提出了适应于高考阅读理解的EDA策略,针对阅读材料普遍较长的特征提出了基于滑动窗口的材料动态裁剪方式,围绕材料中不同句子的重要性差异明显的问题,提出了基于相似度计算的材料句质量评价方法。实验结果表明,三种方法均能提升高考题阅读理解自动答题的效果,答题准确率最高可提升5个百分点以上。 相似文献
16.
针对现有的机器阅读理解模型主要使用循环模型处理文本序列信息,这容易导致训练和预测速度慢且模型预测准确性不高等问题,提出了一种片段抽取型机器阅读理解算法QA-Reader.该算法利用大型预训练语言模型RoBERTa-www-ext获取问题和上下文的词嵌入表示;使用深度可分离卷积和多头自注意力机制进行编码;计算上下文和问题的双向注意力及上下文的自注意力,以融合上下文和问题之间的关联信息,拼接得到最终的语义表征;经过模型编码器预测得到答案,模型针对不可回答的问题计算了其不可回答的概率.在中文片段抽取型机器阅读理解数据集上进行了实验,结果表明QA-Reader模型与基线模型相比,其性能方面EM和F1值分别提高了3.821%、2.740%,训练速度提高了0.089%. 相似文献
17.
18.
案情阅读理解是机器阅读理解在司法领域的具体应用。案情阅读理解通过计算机阅读裁判文书,并回答相关问题,是司法智能化的重要应用之一。当前机器阅读理解的主流方法是采用深度学习模型对文本词语进行编码,并由此获得文本的向量表示。模型建立的核心问题是如何获得文本的语义表示,以及问题与上下文的匹配。考虑到句法信息有助于模型学习句子主干信息,以及中文字符具有潜在的语义信息,提出了融合句法指导与字符注意力机制的案情阅读理解方法。通过融合句法信息及中文字符信息,提升模型对案情文本的编码能力。在法研杯2019阅读理解数据集上的实验结果表明,所提出的方法与基线模型相比EM值提升了0.816,F1值提升了1.809%。 相似文献