首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
《软件工程师》2017,(10):14-16
编写机器阅读理解软件中,一个基本步骤就是对于给定问题先在文档中找到和答案相关的语句。目前该领域大部分算法都使用递归神经网络,但由于很难序列并行化,这类算法在长文档上运行很慢。受人类在首次浏览文章时识别与问题相关的段落或语句,并仔细阅读这些内容得到答案的启发,本文采用一个粗糙但快速的模型用于答案相关句的选择。实验在WIKIREADING LONG数据集上取得了较好的结果。  相似文献   

2.
抽取式问答中已有模型仅建模答案的边界,忽视人的潜在标注过程,导致模型仅学习到表面特征,影响泛化能力.因此,文中提出基于标签增强的机器阅读理解模型(LE-Reader),模拟人的标注过程.LE-Reader模型同时建模答案所在句子、答案内容和答案边界.根据用户标注的答案边界推断正确答案的句子和答案内容作为标签,监督模型的学习过程.通过多任务学习的方式融合3个损失函数.预测时融合3种建模结果,确定最终答案,提高模型的泛化性能.在SQuAD数据集上的实验验证LE-Reader的有效性.  相似文献   

3.
4.
计算机写诗是实现计算机写作的第一步,目前计算机写诗普遍存在主题不明确、诗的内容与写作意图不一致的问题。为改善这些问题,效仿古人写诗的过程,提出了一种两个阶段生成古诗的方法。第一阶段获取写诗大纲,采用TextRank算法对用户输入文本提取关键词,并提出一种基于注意力机制的序列到序列神经网络模型用于关键词扩展;第二阶段根据写诗大纲生成每一行诗句,并提出一种包含双编码器和注意力机制的序列到序列神经网络模型用于古诗生成。最后通过对实验结果的评估验证了提出方法的有效性。与基准方法相比,该方法生成的古诗的主题意义更加明确,诗所表现的内容和写作意图更加一致。  相似文献   

5.
处理机器阅读理解任务时,识别其中没有答案的问题是自然语言处理领域的一个新的挑战.该文提出U-Net模型来处理这个问题,该模型包括3个主要成分:答案预测模块、无答案判别模块和答案验证模块.该模型用一个U节点将问题和文章拼接为一个连续的文本序列,该U节点同时编码问题和文章的信息,在判断问题是否有答案时起到重要作用,同时对于...  相似文献   

6.
预训练语言模型在机器阅读理解领域具有较好表现,但相比于英文机器阅读理解,基于预训练语言模型的阅读理解模型在处理中文文本时表现较差,只能学习文本的浅层语义匹配信息。为了提高模型对中文文本的理解能力,提出一种基于混合注意力机制的阅读理解模型。该模型在编码层使用预训练模型得到序列表示,并经过BiLSTM处理进一步加深上下文交互,再通过由两种变体自注意力组成的混合注意力层处理,旨在学习深层语义表示,以加深对文本语义信息的理解,而融合层结合多重融合机制获取多层次的表示,使得输出的序列携带更加丰富的信息,最终使用双层BiLSTM处理输入输出层得到答案位置。在CMRC2018数据集上的实验结果表明,与复现的基线模型相比,该模型的EM值和F1值分别提升了2.05和0.465个百分点,能够学习到文本的深层语义信息,有效改进预训练语言模型。  相似文献   

7.
顾迎捷  桂小林  李德福  沈毅  廖东 《软件学报》2020,31(7):2095-2126
机器阅读理解的目标是使机器理解自然语言文本,并能够正确回答与文本相关的问题.由于数据集规模的制约,早期的机器阅读理解方法大多基于人工特征以及传统机器学习方法进行建模.近年来,随着知识库、众包群智的发展,研究者们陆续提出了高质量的大规模数据集,为神经网络模型以及机器阅读理解的发展带来了新的契机.对基于神经网络的机器阅读理解相关的最新研究成果进行了详尽的归纳:首先,概述了机器阅读理解的发展历程、问题描述以及评价指标;然后,针对当前最流行的神经阅读理解模型架构,包括嵌入层、编码层、交互层和输出层中所使用的相关技术进行了全面的综述,同时阐述了最新的BERT预训练模型及其优势;之后,归纳了近年来机器阅读理解数据集和神经阅读理解模型的研究进展,同时,详细比较分析了最具代表性的数据集以及神经网络模型;最后展望了机器阅读理解研究所面临的挑战和未来的研究方向.  相似文献   

8.
基于几何模型与照片序列的不规则物体纹理获取   总被引:6,自引:0,他引:6       下载免费PDF全文
虚拟世界的建造过程中 ,获取不规则物体的纹理非常重要 .针对数字文物保存与展示的要求 ,提出了一种基于物体单色几何模型及在其周围环绕拍摄的照片序列来获取不规则物体圆柱纹理的算法 .该算法分为投影变换、变形和拼接等步骤 ,通过将物体照片序列上的色彩映射到圆柱贴图面上来获得该物体的纹理 .该算法具有对原始照片质量要求低和允许运行时进行编辑等优点  相似文献   

9.
随着信息技术的发展和应用需求的增长,智能手机中嵌入了各种传感器和网络接口,它们是获取上下文信息,进而构建智能型移动应用的关键。尽管在智能手机中获取上下文信息的代价很大,但是这种代价却通常被移动应用开发者所忽视。提出了一个上下文信息获取的代价模型,它能对上下文信息获取的代价进行度量。设计并实现了一个上下文信息获取代价模型的测量工具CRCTest,并对Android智能手机的代价模型进行了测量。基于测量得到的Android平台上下文信息获取的代价模型实现了一个应用实例,通过对比两种位置上下文信息生成方式的代价,说明了基于代价模型优化设计上下文获取的可行性。  相似文献   

10.
黄梯云  卢涛  李一军 《计算机工程》2003,29(16):39-40,56
提出了一种构模知识的组织和获取方法。构模知识分为模型知识、领域知识和数据知识3个层次,数据知识是最底层的知识,高层知识的应用通过调用底层知识完成。模型知识和领域知识可以通过交互的方式在专家的帮助下获取,数据知识可以由系统自动获取。应用这种方法,系统能够在专家构建模型时获取构模的知识,从而使模型资源得到有效利用,并解决了模型管理系统知识获取的瓶颈问题。  相似文献   

11.
代码摘要(code summary)是对一段源代码简短的自然语言描述,代码自动摘要(code summarization)技术通过自动化地生成代码摘要辅助开发者更好地理解程序代码,该技术在许多软件开发活动中都具有重要的应用价值.代码自动摘要同时结合了机器翻译和文本摘要2个任务,如何更好地对代码建模以及如何更好地筛选代码中的关键信息是代码摘要所面临的主要挑战.受人类写摘要时的习惯和相关研究的启发,提出了一种基于关键词的代码自动摘要方法(keyword-based source code summarization, KBCoS).该方法将函数签名和API(application programming interface)调用视为关键词,并利用关键词序列来优化解码器注意力机制中的权重分布,使模型在生成摘要时更集中地关注代码中的重要信息.此外,为克服代码符号词汇表过大的问题,提出了符号部分拆分算法,即当符号不在词表中时,依据常用命名规则将符号拆成子符号的序列.该算法简单有效,能很好地平衡代码符号序列长度和未登录词数目之间的矛盾.选用了带有注意力机制的序列到序列模型作为基准模型,并在公开的Java代码摘要数据集上进行了评估.实验表明,基于关键词的注意力机制和部分拆分算法在BLEU-4,METEOR,ROUGE-L这3个评测指标上均能提升基准模型的表现.同时,在另一个Python数据集上也取得了一致的实验结果.最后,将KBCoS与现有模型相结合,在Java数据集上取得了当前最好的结果,该结果表明KBCoS也能改进现有的其他模型.评测结果和注意力权重的热力图都表明了KBCoS的有效性.  相似文献   

12.
针对现有的机器阅读理解模型主要使用循环模型处理文本序列信息,这容易导致训练和预测速度慢且模型预测准确性不高等问题,提出了一种片段抽取型机器阅读理解算法QA-Reader.该算法利用大型预训练语言模型RoBERTa-www-ext获取问题和上下文的词嵌入表示;使用深度可分离卷积和多头自注意力机制进行编码;计算上下文和问题的双向注意力及上下文的自注意力,以融合上下文和问题之间的关联信息,拼接得到最终的语义表征;经过模型编码器预测得到答案,模型针对不可回答的问题计算了其不可回答的概率.在中文片段抽取型机器阅读理解数据集上进行了实验,结果表明QA-Reader模型与基线模型相比,其性能方面EM和F1值分别提高了3.821%、2.740%,训练速度提高了0.089%.  相似文献   

13.
王元龙 《计算机应用》2017,37(6):1741-1746
阅读理解任务需要综合运用文本的表示、理解、推理等自然语言处理技术。针对高考语文中文学作品阅读理解的选项题问题,提出了基于分层组合模式的句子组合模型,用来实现句子级的语义一致性计算。首先,通过单个词和短语向量组成的三元组来训练一个神经网络模型;然后,通过训练好的神经网络模型来组合句子向量(两种组合方法:一种为递归方法;另一种为循环方法),得到句子的分布式向量表示。句子间的一致性利用两个句子向量之间的余弦相似度来表示。为了验证所提方法,收集了769篇模拟材料+13篇北京高考语文试卷材料(包括原文与选择题)作为测试集。实验结果表明,与传统最优的基于知网语义方法相比,循环方法准确率在高考材料中提高了7.8个百分点,在模拟材料中提高了2.7个百分点。  相似文献   

14.
目前许多古诗生成方法离人类创作的水平仍有较大的差距,尤其是在主题关联性及诗句的语义方面。为弥补现有方法的不足,提出一种多对抗训练的古诗生成框架。以融合了注意力机制并采用双编码器的序列到序列模型作为古诗生成器,以层级RNN和TextCNN组合的多判别模型指导古诗的生成,同时基于策略梯度进行多对抗训练。在古诗意象数据集上进行实验表明,相较于已提出的方法,基于多对抗训练的古诗生成方法有效提升了诗句与意象词之间的关联性,古诗所表现的语义内涵也更加丰富。  相似文献   

15.
针对文本自动摘要任务中生成式摘要模型对句子的上下文理解不够充分、生成内容重复的问题,基于BERT和指针生成网络(PGN),提出了一种面向中文新闻文本的生成式摘要模型——BERT-指针生成网络(BERT-PGN)。首先,利用BERT预训练语言模型结合多维语义特征获取词向量,从而得到更细粒度的文本上下文表示;然后,通过PGN模型,从词表或原文中抽取单词组成摘要;最后,结合coverage机制来减少重复内容的生成并获取最终的摘要结果。在2017年CCF国际自然语言处理与中文计算会议(NLPCC2017)单文档中文新闻摘要评测数据集上的实验结果表明,与PGN、伴随注意力机制的长短时记忆神经网络(LSTM-attention)等模型相比,结合多维语义特征的BERT-PGN模型对摘要原文的理解更加充分,生成的摘要内容更加丰富,全面且有效地减少重复、冗余内容的生成,Rouge-2和Rouge-4指标分别提升了1.5%和1.2%。  相似文献   

16.
杨东  王以松 《计算机应用》2023,43(1):215-220
针对析取回答集程序的结构化测试基础理论匮乏的问题,系统化地提出析取回答集程序结构化测试覆盖的概念。首先,定义针对析取回答集程序的测试用例,确立析取回答集程序的主要测试实体为程序中的逻辑规则;其次,通过对规则的头、规则的体、规则的集合等不同测试目标构建了规则覆盖、定义覆盖、环覆盖等基本概念来模拟结构化测试中的语句覆盖、分支覆盖等概念;最后,提出了析取回答集程序的测试覆盖率计算公式,并举例说明各种覆盖下的覆盖率计算方法,并讨论了析取回答集程序的部分特殊性质和关键指标。  相似文献   

17.
荣光辉  黄震华 《计算机应用》2017,37(10):2861-2865
面向中文问答匹配任务,提出基于深度学习的问答匹配方法,以解决机器学习模型因人工构造特征而导致的特征不足和准确率偏低的问题。在该方法中,主要有三种不同的模型。首先应用组合式的循环神经网络(RNN)与卷积神经网络(CNN)模型去学习句子中的深层语义特征,并计算特征向量的相似度距离。在此模型的基础上,加入两种不同的注意力机制,根据问题构造答案的特征表示去学习问答对中细致的语义匹配关系。实验结果表明,基于组合式的深度神经网络模型的实验效果要明显优于基于特征构造的机器学习方法,而基于注意力机制的混合模型可以进一步提高匹配准确率,其结果最高在平均倒数排序(MRR)和Top-1 accuray评测指标上分别可以达到80.05%和68.73%。  相似文献   

18.
王敏蕊  高曙  袁自勇  袁蕾 《计算机应用》2020,40(7):1884-1890
现实世界中,多标签文本比单标签文本具有更广泛的应用场景,但其输出空间的庞大给分类任务带来了更多的挑战。将多标签文本分类问题看作标签序列生成问题,把序列生成模型(SGM)应用于多标签文本分类领域,并针对该模型的顺序结构容易产生累积误差等不足,构建了基于动态路由(DR)的序列生成模型(DR-SGM)。该模型基于Encoder-Decoder模式:Encoder层中使用双向长短期记忆(Bi-LSTM)神经网络+Attention进行语义信息编码;Decoder层设计了一种基于动态路由的解码器结构,该结构在隐含层后添加了动态路由聚合层,利用路由参数的全局共享减弱了累积误差产生的影响。同时,动态路由能捕获文本中部分-部分、部分-整体的位置信息,并且通过优化动态路由算法进一步提高了语义聚合效果。将DR-SGM应用于多标签文本分类,实验结果表明,在RCV1-V2、AAPD和Slashdot数据集上,多标签文本分类效果得到了有效的提升。  相似文献   

19.
The task of finding a set of test sequences that provides good coverage of industrial circuits is infeasible because of the size of the circuits. For small critical subcircuits of the design, however, designers can create a set of test sequences that achieve good coverage. These sequences cannot be used on the full design because the inputs to the subcircuit may not be accessible. In this work we present an efficient test generation algorithm that receives a test sequence created for the subcircuit and finds a test sequence for the full design that reproduces the given sequence on the subcircuit. The algorithm uses a new technique called dynamic transition relations to increase its efficiency .The most common and most expensive step in our algorithm is the computation of the set of predecessors of a set of states. To make this computation more efficient we exploit a partitioning of the transition relation into a set of simpler relations. At every step we use only those that are necessary, resulting in a smaller relation than the original one. A different relation is used for each step, hence the name dynamic transition relations. The same idea can be used to improve symbolic model checking for the temporal logic CTL.We have implemented the new method in SMV and run it on several large circuits. Our experiments indicate that the new method can provide gains of up to two orders of magnitude in time and space during verification. These results show that dynamic transition relations can make it possible to verify circuits that were previously unmanageable due to their size and complexity .  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号