首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
探究面向领域智能问答中自然语言理解的数据增强问题。由于应用缺乏历史数据,且人工标注成本高,无法满足大规模训练自然语言理解模型的需求。因此,对传统数据增强的方法进行研究,提出使用基于对比搜索的关键字文本生成模型,以此生成了具有句式表达多样性的的数据集。实验结果表明,相比传统的集中搜索算法,使用对比搜索作为模型的解码策略能够生成更加准确和合理的电力领域问题文本,有效地降低了生成文本的词重复率。利用这些样本数据,成功地训练了一个高效准确的自然语言理解模型,提高了用户意图识别的准确率。这一研究对于智能问答领域的实际应用具有一定的参考价值。  相似文献   

2.
《软件》2018,(2):7-11
为提升用户获取生物学科相关知识的准确性和简洁性,设计并实现基于中文知识图谱的生物领域知识问答系统。针对生物学科领域实体的特殊性,基于改进的文档迁移距离算法结合逻辑回归模型实现实体链接;通过构建标注问题库并结合短文本相似度算法,实现问句语义理解。实验结果表明,系统对生物学科领域专有实体识别和问句语义理解两方面都具有较高的准确率,在生物学科领域问答应用中具有应用价值。  相似文献   

3.
机器阅读理解旨在训练模型使其拥有理解自然语言并回答问题的能力,以便于以较低的人力解决现实世界中的问题。该文提出了一种面向特定领域(餐饮行业)的中文阅读理解数据集——Restaurant(Res)。该数据集的初始数据来自大众点评应用程序,以餐饮行业的用户评论为初始文本,标注者在此基础上提出问题并给出答案。目前Res数据集有两个版本,Res_v1中所有问题的答案都可以在用户评论中找到,Res_v2在Res_v1的基础上增加评论中没有答案的问题,进一步契合现实场景。该文在此数据集上应用主流的BiDAF、QANet和Bert模型进行实验,实验结果显示该数据集上最高的准确率只有73.78%,相比于人类接近91.03%的正确率仍有较大差距。  相似文献   

4.
机器阅读理解作为自然语言理解的关键任务,受到国内外学者广泛关注。针对多项选择型阅读理解中无线索标注且涉及多步推理致使候选句抽取困难的问题,该文提出一种基于多模块联合的候选句抽取模型。首先采用部分标注数据微调预训练模型;然后通过TF-IDF递归式抽取多跳推理问题中的候选句;最后结合无监督方式进一步筛选模型预测结果降低冗余性。该文在高考语文选择题及RACE数据集上进行验证,在候选句抽取中,该方法相比于最优基线模型F1值提升3.44%,在下游答题任务中采用候选句作为模型输入较全文输入时准确率分别提高3.68%和3.6%,上述结果证实该文所提方法的有效性。  相似文献   

5.
受限领域问答系统的中文问句分析研究   总被引:1,自引:0,他引:1       下载免费PDF全文
对用户所提问句的理解是受限领域问答系统实现的关键,该文提出一种基于本体和问句句型模板规则的中文问句分析方法,研究如何使用问句语义表征来表示问句分析的结果,将该方法应用于某受限领域问答系统中。实验结果表明,使用该方法进行中文问句分析,准确率达90%以上,可以在实际的问答系统中使用该方法。  相似文献   

6.
事件同指消解是一个具有挑战性的自然语言处理任务,它在事件抽取、问答系统和阅读理解等任务中发挥着重要作用.现存的事件同指消解语料库的一个问题是标注规模较小,无法训练出高效能的模型.为了解决上述问题,该文提出了一个基于跨语言数据增强的事件同指消解神经网络模型ECR_CDA(Event Coreference Resolut...  相似文献   

7.
高考语文阅读理解问答相对普通阅读理解问答难度更大,同时高考问答任务中的训练数据较少,目前的深度学习方法不能取得良好的答题效果。针对这些问题,该文提出融合BERT语义表示的高考阅读理解答案候选句抽取方法。首先,采用改进的MMR算法对段落进行筛选;其次,运用微调之后的BERT模型对句子进行语义表示;再次,通过SoftMax分类器对答案候选句进行抽取,最后利用PageRank排序算法对输出结果进行二次排序。该方法在北京近十年高考语文阅读理解问答题上的召回率和准确率分别达到了61.2%和50.1%,验证了该方法的有效性。  相似文献   

8.
事件抽取旨在从海量的非结构化文本中自动提取出结构化描述信息,以帮助人们快速地了解事件的最新发展动态。传统的事件抽取方法主要采用分类或者序列标注的方法,其依赖于大量的标注数据来训练模型。近年来,研究者提出了利用机器阅读理解模型来进行事件抽取的方法,通过任务转换并联合利用机器阅读理解任务中的标注数据进行训练来缓解标注数据的不足。然而现有方法局限于单轮问答,问答对之间缺少依赖关系;此外,已有方法也未充分利用句子中的实体信息等知识。针对以上不足,提出了一种会话式机器阅读理解框架用于事件抽取,针对已有方法进行了两方面的扩展:首先,通过在句子中显式地增加实体标记信息,使得模型能够有效地学习到输入句子中的实体知识;其次,设计了历史会话信息编码模块,并结合注意力机制从历史会话中筛选出重要信息,融合到阅读理解模型中以辅助推断。最后,在公开数据集上的实验结果表明所提模型相比已有方法取得了更优的结果。  相似文献   

9.
开放域问答系统通常可以借助一些数据冗余方法来提高问答准确性,而对于缺乏大规模领域语料的领域相关问答系统来说,准确理解用户的意图成为这类系统的关键。该文首先定义了一种带约束语义文法,与本体等语义资源相结合,可以在词汇级、句法级、语义级对自然语言句子的解析过程进行约束,解决自然语言理解歧义问题;然后给出了一个高效的文法匹配算法,其首先依据定义的各种约束条件预先过滤一些规则,然后依据提出的匹配度计算模型对候选的规则进行排序,找到最佳匹配。为了验证方法的有效性,将方法应用到两个实际的应用领域的信息查询系统。实验结果表明,本系统提出的方法切实有效,系统理解准确率分别达到了82.4%和86.2%,MRR值分别达到了91.6%和93.5%。  相似文献   

10.
开放域问答是自然语言处理中的重要任务之一。目前的开放域问答模型总是倾向于在问题和文章之间做浅层的文本匹配,经常在一些简单问题上出错。这些错误的原因部分是由于阅读理解数据集缺少一些真实场景下常见的模式。该文提出了几种能够提高开放域问答鲁棒性的数据增广方法,能有效减少这些常见模式的影响。此外,我们还构造并公开发布了一个新的开放域问答数据集,能够评估模型在真实场景下的实际效果。实验结果表明,该文提出的方法在实际场景下带来了性能提升。  相似文献   

11.
基于最大熵模型的中文阅读理解问题回答技术研究   总被引:2,自引:1,他引:1  
该文基于山西大学自主开发的中文阅读理解语料库CRCC v1.1版,根据问句和候选答案句的对应关系,构建了词层面以及句法层面共计35个特征,基于最大熵模型对中文阅读理解问题回答进行了建模,在35个特征全部加入最大熵模型的情况下,测试集上得到了75.46%的HumSent准确率。考虑到特征取值之间的相关性对权重估计的影响,笔者先对35个特征观测值矩阵进行主成分降维,选择适当的主成分个数重构特征,然后再使用最大熵模型进行建模,在测试集上的HumSent准确率达到80.18%. 实验结果表明,在阅读理解问答系统中,采用特征的主成分降维方法,能有效融合全部特征信息,回避了最大熵模型中特征筛选的过程,并且提高了阅读理解系统的准确率。  相似文献   

12.
由于互联网语料的高噪音特性,传统的属性值抽取方法存在人工成本增加及训练集缺乏等问题。提出一种新的实体属性值抽取方法。利用机器阅读理解模型,从互联网语料中抽取出高质量的候选属性值,通过高效的众包验证机制调整各候选属性值的权重,得到最终抽取结果。实验结果表明,与OpenTag、QANET等模型相比,该机器阅读理解模型有效提升了候选属性值抽取的准确性,抽取准确率提升10%左右,同时通过众包验证方法,能够以较低的众包成本提高属性值抽取的整体性能。  相似文献   

13.
Recent studies have shown that adversarial training is an effective method to defend against adversarial sample attacks. However, existing adversarial training strategies improve the model robustness at a price of a lowered generalization ability of the model. At this stage, the mainstream adversarial training methods usually deal with each training sample independently and ignore the inter-sample relationships, which prevents the model from fully exploiting the geometric relationship between samples to learn a more robust model for better defense against adversarial attacks. Therefore, this paper focuses on how to maintain the stability of the geometric structure between samples during adversarial training to improve the model robustness. Specifically, in adversarial training, a new geometric structure constraint method is designed with the aim to maintain the consistency of the feature space distribution between normal samples and adversarial samples. Furthermore, a dual-label supervised learning method is proposed, which leverages the labels of both natural samples and adversarial samples for joint supervised training of the model. Lastly, the characteristics of the dual-label supervised learning method are analyzed, and the working mechanism of the adversarial samples are explained theoretically. It is concluded from extensive experiments on benchmark datasets that the proposed approach effectively improves the robustness of the model while maintaining good generalization accuracy. The related code has been open-sourced: https://github.com/SkyKuang/DGCAT  相似文献   

14.
机器阅读理解作为一种微阅读模式近年来在自动问答领域受到广泛关注,针对机器阅读理解中多对一的文本蕴含问题,该文首先构造了8 000级别的多句—单句中文文本蕴含语料M2OCTE,其次采用了层级神经网络模型,有效融合多个句子之间的语义信息,将多对一的蕴含对表达成统一的形式,实现端到端的输出。该方法在高考现代文阅读理解蕴含数据集上的准确率为58.92%,比将多句—单句的文本蕴含转换为单句—单句之后进行处理的准确率要高。同时也在英文数据集上进行了测试,实验结果验证了该方法的有效性。  相似文献   

15.
机器阅读理解是自然语言处理领域中的一项重要研究任务,高考阅读理解自动答题是近年来阅读理解任务中的又一挑战。目前高考语文阅读理解任务中真题和模拟题的数量相对较少,基于深度学习的方法受到实验数据规模较小的限制,所得的实验结果相比传统方法无明显优势。基于此,该文探索了面向高考语文阅读理解的数据增强方法,结合传统的EDA数据增强思路提出了适应于高考阅读理解的EDA策略,针对阅读材料普遍较长的特征提出了基于滑动窗口的材料动态裁剪方式,围绕材料中不同句子的重要性差异明显的问题,提出了基于相似度计算的材料句质量评价方法。实验结果表明,三种方法均能提升高考题阅读理解自动答题的效果,答题准确率最高可提升5个百分点以上。  相似文献   

16.
针对现有的机器阅读理解模型主要使用循环模型处理文本序列信息,这容易导致训练和预测速度慢且模型预测准确性不高等问题,提出了一种片段抽取型机器阅读理解算法QA-Reader.该算法利用大型预训练语言模型RoBERTa-www-ext获取问题和上下文的词嵌入表示;使用深度可分离卷积和多头自注意力机制进行编码;计算上下文和问题的双向注意力及上下文的自注意力,以融合上下文和问题之间的关联信息,拼接得到最终的语义表征;经过模型编码器预测得到答案,模型针对不可回答的问题计算了其不可回答的概率.在中文片段抽取型机器阅读理解数据集上进行了实验,结果表明QA-Reader模型与基线模型相比,其性能方面EM和F1值分别提高了3.821%、2.740%,训练速度提高了0.089%.  相似文献   

17.
对抗鲁棒性指的是模型抵抗对抗样本的能力,对抗训练是提高模型对抗鲁棒性的一种常用方法.然而,对抗训练会降低模型在干净样本上的准确率,这种现象被称为accuracy-robustness problem.由于在训练过程中需要生成对抗样本,这个过程显著增加了网络的训练时间.研究了预测不确定性与对抗鲁棒性的关系,得出以下结论:...  相似文献   

18.
案情阅读理解是机器阅读理解在司法领域的具体应用。案情阅读理解通过计算机阅读裁判文书,并回答相关问题,是司法智能化的重要应用之一。当前机器阅读理解的主流方法是采用深度学习模型对文本词语进行编码,并由此获得文本的向量表示。模型建立的核心问题是如何获得文本的语义表示,以及问题与上下文的匹配。考虑到句法信息有助于模型学习句子主干信息,以及中文字符具有潜在的语义信息,提出了融合句法指导与字符注意力机制的案情阅读理解方法。通过融合句法信息及中文字符信息,提升模型对案情文本的编码能力。在法研杯2019阅读理解数据集上的实验结果表明,所提出的方法与基线模型相比EM值提升了0.816,F1值提升了1.809%。  相似文献   

19.
随着裁判文书等司法大数据不断积累,如何将人工智能与法律相结合成为了法律智能研究的热点.该文针对2020中国法研杯司法人工智能挑战赛(CAIL2020)的机器阅读理解任务,提出了一种基于多任务联合训练的机器阅读理解模型.该模型将阅读理解任务划分为四个子模块:文本编码模块、答案抽取模块、答案分类模块和支持句子判别模块.此外...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号