首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 562 毫秒
1.
针对代码注释较少导致软件项目可维护性降低、理解代码语义困难等问题,提出一种基于NMT模型的双编码器框架自动生成代码注释的方法.在该框架中,首先提取不同的代码特征信息;然后分别采用序列编码器和图编码器对不同的代码特征编码,引入注意力机制调整编码器输出向量,再对双编码器的输出向量综合处理;最终利用解码器对综合向量解码获得注释序列.为了验证带有注意力机制的双编码器模型效果,本文构建自动生成代码注释算法框架.实验表明,双编码器模型与文中的序列编码器和树编码器模型算法相比,在生成代码注释方面的结果评估得分上表现较好.通过BLEU-1、ROUGE-L和F1测评指标得分对比,验证了本文算法的有效性.  相似文献   

2.
徐少峰  潘文韬  熊赟  朱扬勇 《计算机工程》2020,46(2):304-308,314
在软件开发过程中,性能良好的代码注释工具能够提高开发效率并降低维护成本。部分研究者将代码注释自动生成看作将源代码翻译成自然语言注释的翻译任务,但仅考虑源代码的序列信息而忽略了代码内部的结构特性。为此,在常见端到端翻译模型的基础上,利用代码抽象语法树将源代码的结构信息嵌入到编码器解码器翻译模型中,提出一种基于结构感知的双编码器解码器模型,该模型综合考虑源代码的序列信息与代码内部的结构特性。在真实数据集上的实验结果表明,相比PBMT、Seq2seq模型,该模型的BLEU得分较高,且生成的注释更准确和易读。  相似文献   

3.
代码注释可以帮助开发人员理解代码的功能和实现方法。代码注释生成模型可以自动识别代码中的关键信息,并生成相关注释,提高代码的可读性和可维护性。现有的代码注释生成模型通常只使用抽象语法树结构信息来表示代码,导致模型生成注释质量不高。提出一种融合多结构信息的代码注释生成模型,该模型在代码抽象语法树的基础上,增加了数据流图结构信息来表示代码。模型使用Transformer的编码器对抽象语法树序列进行编码,捕获代码全局信息。使用图神经网络对数据流图进行特征提取,提供变量之间的计算依赖关系等信息。然后使用跨模态注意力机制融合抽象语法树和数据流2种特征,经过Transformer的解码器生成相应的注释。实验结果表明,与6种主流模型相比,所提出的模型在Java和Python数据集上的BLEU、METEOR和ROUGE-L指标得分均有提高,生成的注释也具有良好的可读性。  相似文献   

4.
从单文档中生成简短精炼的摘要文本可有效缓解信息爆炸给人们带来的阅读压力。近年来,序列到序列(sequence-to-sequence,Seq2Seq)模型在各文本生成任务中广泛应用,其中结合注意力机制的Seq2Seq模型已成为生成式文本摘要的基本框架。为生成能体现摘要的特定写作风格特征的摘要,在基于注意力和覆盖率机制的Seq2Seq模型基础上,在解码阶段利用变分自编码器(variational auto-encoder,VAE)刻画摘要风格特征并用于指导摘要文本生成;最后,利用指针生成网络来缓解模型中可能出现的未登录词问题。基于新浪微博LCSTS数据集的实验结果表明,该方法能有效刻画摘要风格特征、缓解未登录词及重复生成问题,使得生成的摘要准确性高于基准模型。  相似文献   

5.
源代码注释生成旨在为源代码生成精确的自然语言注释,帮助开发者更好地理解和维护源代码.传统的研究方法利用信息检索技术来生成源代码摘要,从初始源代码选择相应的词或者改写相似代码段的摘要;最近的研究采用机器翻译的方法,选择编码器-解码器的神经网络模型生成代码段的摘要.现有的注释生成方法主要存在两个问题:一方面,基于神经网络的方法对于代码段中出现的高频词更加友好,但是往往会弱化低频词的处理;另一方面,编程语言是高度结构化的,所以不能简单地将源代码作为序列化文本处理,容易造成上下文结构信息丢失.因此,本文为了解决低频词问题提出了基于检索的神经机器翻译方法,使用训练集中检索到的相似代码段来增强神经网络模型;为了学习代码段的结构化语义信息,本文提出结构化引导的Transformer,该模型通过注意力机制将代码结构信息进行编码.经过实验,结果证明该模型在低频词和结构化语义的处理上对比当下前沿的代码注释生成的深度学习模型具有显著的优势.  相似文献   

6.
代码注释能够提高程序代码的可读性,从而提升软件开发效率并降低成本。现有的代码注释生成方法将程序代码的序列表示或者抽象语法树表示输入到不同结构的编码器网络,无法融合程序代码不同抽象形式的结构特性,导致生成的注释可读性较差。构建一种结构感知的混合编码模型,同时考虑程序代码的序列表示和结构表示,通过序列编码层和图编码层分别捕获程序代码的序列信息和语法结构信息,并利用聚合编码过程将两类信息融合至解码器。设计一种结构感知的图注意力网络,通过将程序代码的语法结构的层次和类型信息嵌入图注意力网络的学习参数,有效提升了混合编码模型对程序代码的复杂语法结构的学习能力。实验结果表明,与SiT基准模型相比,混合编码模型在Python和Java数据集上的BLEU、ROUGE-L、METEOR得分分别提高了2.68%、1.47%、3.82%和2.51%、2.24%、3.55%,能生成更准确的代码注释。  相似文献   

7.
针对传统翻译系统在单语语料库中易出现翻译语料丢失和翻译准确率低的问题,以单语语料库中的自动英诗汉译为研究对象,提出基于无监督学习的神经网络机器翻译方法,该方法将序列到序列模型Seq2Seq和注意力机制Attention相结合,构建Seq2Seq+Attention的单语语言机器翻译模型;在编码器中加入BiLSTM网络,通过回译策略对机器翻译模型进行反向训练和翻译,从而将无监督学习方法转换为有监督学习,以提升最终翻译结果准确率。实验结果表明,在单语语料库中,提出的基于无监督机器翻译方法在不同训练次数下BLEU值最高可达25。且通过人工评分发现,人工评分总分可达17.72分,总体分数较高。由此说明提出的方法可有效避免翻译语料丢失现象,提升翻译准确率。  相似文献   

8.
丁建立  李洋  王家亮 《计算机应用》2019,39(12):3476-3481
针对当前生成式文本摘要方法存在的语义信息利用不充分、摘要精度不够等问题,提出一种基于双编码器的文本摘要方法。首先,通过双编码器为序列映射(Seq2Seq)架构提供更丰富的语义信息,并对融入双通道语义的注意力机制和伴随经验分布的解码器进行了优化研究;然后,在词嵌入生成技术中融合位置嵌入和词嵌入,并新增词频-逆文档频率(TF-IDF)、词性(POS)、关键性得分(Soc),优化词嵌入维度。所提方法对传统序列映射Seq2Seq和词特征表示进行优化,在增强模型对语义的理解的同时,提高了摘要的质量。实验结果表明,该方法在Rouge评价体系中的表现相比传统伴随自注意力机制的递归神经网络方法(RNN+atten)和多层双向伴随自注意力机制的递归神经网络方法(Bi-MulRNN+atten)提高10~13个百分点,其文本摘要语义理解更加准确、生成效果更好,拥有更好的应用前景。  相似文献   

9.
近几年来神经机器翻译(Neural Machine Translation, NMT)发展迅速,Seq2Seq框架的提出为机器翻译带来了很大的优势,可以在观测到整个输入句子后生成任意输出序列。但是该模型对于长距离信息的捕获能力仍有很大的局限,循环神经网络(RNN)、 LSTM网络都是为了改善这一问题提出的,但是效果并不明显。注意力机制的提出与运用则有效地弥补了该缺陷。Self-Attention模型就是在注意力机制的基础上提出的,本文使用Self-Attention为基础构建编码器-解码器框架。本文通过探讨以往的神经网络翻译模型,分析Self-Attention模型的机制与原理,通过TensorFlow深度学习框架对基于Self-Attention模型的翻译系统进行实现,在英文到中文的翻译实验中与以往的神经网络翻译模型进行对比,表明该模型取得了较好的翻译效果。  相似文献   

10.
现有的代码注释生成技术大多针对方法粒度,而对于面向对象程序,类才是其核心组成,因此对类生成注释是很有必要的。针对这一问题,提出一种结合类原型与深度学习技术对类生成注释的方法。首先,确定类原型并选择对应类注释模板;其次,提取类中信息填充模板,对类中的方法通过双编码器模型训练得到方法代码注释。实验结果表明,方法粒度上提出的双编码器模型在方法代码注释生成的结果评估中表现较好,类粒度的注释准确性较高。  相似文献   

11.
基于编码器解码器的序列到序列模型广泛应用于生成式自动文摘,但传统Seq2Seq模型会产生重复、偏离主题等问题。该文提出两点优化:一是全局信息编码,通过卷积和自注意力机制获取原文全局信息并将其传递到解码器;二是主题信息解码,从原文中提取重要实体并将其编码为主题向量,帮助解码器获取值得聚焦的信息,提升文本摘要的真实性和可靠性。在LCSTS上的实验表明,全局编码和主题解码相较之前的模型在各项Rouge指标上均有提升,融合二者的模型提升效果更为明显。  相似文献   

12.
针对公安信息服务平台人机对话答非所问、服务能力低下的问题,研究提出了通过LSTM优化CNN模型的对话意图识别方法,将用户的对话分为意图清晰和意图不明的两种类型。对清晰意图的对话采用人工规范模块文本生成,而对于意图不明的对话则采用注意力机制优化的Seq2Seq模型进行对话生成。同时本次研究对LSTM-CNN意图识别模型和优化的Seq2Seq文本生成模型进行数据集仿真实验,LSTM-CNN的平均识别精度为0.943,召回率0.922,F1值为0.932,高于其他文本识别算法;而优化的人机对话系统对话生成答非所问的情况仅有4%,低于传统的文本生成方法。本次研究提出的公安信息服务平台的智能人机对话生成方法性能优越,可以有效提高公安工作的服务水平。  相似文献   

13.
图像描述生成模型是使用自然语言描述图片的内容及其属性之间关系的算法模型.对现有模型描述质量不高、图片重要部分特征提取不足和模型过于复杂的问题进行了研究,提出了一种基于卷积块注意力机制模块(CBAM)的图像描述生成模型.该模型采用编码器-解码器结构,在特征提取网络Inception-v4中加入CBAM,并作为编码器提取图片的重要特征信息,将其送入解码器长短期记忆网络(LSTM)中,生成对应图片的描述语句.采用MSCOCO2014数据集中训练集和验证集进行训练和测试,使用多个评价准则评估模型的准确性.实验结果表明,改进后模型的评价准则得分优于其他模型,其中Model2实验能够更好地提取到图像特征,生成更加准确的描述.  相似文献   

14.
燃气负荷预测是一项让城市安全经济地调配燃气的重要的工作. 目前, 基于注意力机制的Seq2Seq模型越来越多地应用于燃气数据预测, 是一种有效的燃气负荷预测方法. 然而, 针对燃气负荷数据这种突变频率高、幅度大的特点, 一般基于注意力机制的Seq2Seq模型难以提取数据中的多维时间模式信息与应对数据随机突变情况, 在处理影响因素复杂的燃气负荷的预测问题时仍然需要改进. 为此, 本文提出多维注意力机制Seq2Seq模型. 一方面设计研究了多层次时间注意力模块, 综合单时间步长、多时间步长的注意力计算提取数据中不同时间模式信息; 另一方面, 设计增加了局部历史注意力模块, 以改进模型中无法区分重要历史信息的缺陷, 使模型在预测时倾向于参考更为重要的历史信息. 本改进模型针对燃气负荷的独特特性, 具有较好的预测表现. 使用国内某市区的燃气消耗数据与2016年电工数学建模竞赛的电力负荷数据的实验结果表明, 本改进模型相对于一般注意力机制Seq2Seq模型, MAE分别降低了17%与9%.  相似文献   

15.
函数自动命名技术旨在为输入的源代码自动生成目标函数名,增强程序代码的可读性以及加速软件开发进程,是软件工程领域中一项重要的研究任务.现有基于机器学习的技术主要是通过序列模型对源代码进行编码,进而自动生成函数名,但存在长程依赖问题和代码结构编码问题.为了更好的提取程序中的结构信息和语义信息,本文提出了一个基于图卷积(Graph Convolutional Network,GCN)的神经网络模型—TrGCN(a Transformer and GCN based automatic method naming).TrGCN利用了Transformer中的自注意力机制来缓解长程依赖问题,同时采用Character-word注意力机制提取代码的语义信息.TrGCN引入了一种基于图卷积的AST Encoder结构,丰富了AST节点特征向量的信息,可以很好地对源代码结构信息进行建模.在实证研究中,使用了3个不同规模的数据集来评估TrGCN的有效性,实验结果表明TrGCN比当前广泛使用的模型code2seq和Sequence-GNNs能更好的自动生成函数名,其中F1分数分别提高了平均5.2%、2.1%.  相似文献   

16.
目前主流的生成式自动文摘采用基于编码器—解码器架构的机器学习模型,且通常使用基于循环神经网络的编码器。该编码器主要学习文本的序列化信息,对文本的结构化信息学习能力较差。从语言学的角度来讲,文本的结构化信息对文本重要内容的判断具有重要作用。为了使编码器能够获取文本的结构信息,该文提出了基于文本结构信息的编码器,其使用了图卷积神经网络对文本进行编码。该文还提出了一种规范融合层,旨在使模型在获取文本结构信息的同时,也能关注到文本的序列化信息。另外,该文还使用了多头注意力机制的解码器,以提高生成摘要的质量。实验结果表明,在加入该文所提出的文本结构信息编码器、规范融合层后,系统性能在ROUGE评价指标上有显著的提高。  相似文献   

17.
目前深度学习已经广泛应用于英文文本摘要领域,但是在中文文本摘要领域极少使用该方法进行研究。另外,在文本摘要领域主要使用的模型是编码-解码模型,在编码时输入的是原始的文本信息,缺乏对文本高层次特征的利用,导致编码的信息不够充分,生成的摘要存在词语重复、语序混乱等问题。因此,提出一种局部注意力与卷积神经网络结合的具备高层次特征提取能力的编码-解码模型。模型通过局部注意力机制与卷积神经网络结合的方式提取文本的高层次的特征,将其作为编码器输入,此后通过基于全局注意力机制的解码器生成摘要。实验结果证明,在中文文本数据集上该模型相对于其他模型有着较好的摘要效果。  相似文献   

18.
为了对传统的聊天机器人局限性进行改进,增强其回复时的个性化和多样化,并使其具有一定的准确性,研究改进了一种基于深度学习Seq2Seq模型的对话系统。对传统的编码器-解码器(Encoder-Decoder)模型进行了研究,在原有模型的基础上使用了深度LSTM结构并且加入注意力机制使其能更好地适应不同长度的问句。在解码过程中,将原有模型的贪心算法改为了Beam Search算法。在训练过程中,利用了多次训练的方法,训练出模拟电视剧角色的聊天机器人,为聊天机器人赋予一个特定的身份。通过使用两种自动评估指标BLEUs和Distinct-n去测试聊天机器人,并使用一些问句测试聊天机器人的反应,最终实验结果表明新模型与原有的模型相比,两种指标都取得了较好的效果,并且输出句子的合理性以及回复质量也有明显的提高。  相似文献   

19.
针对当前图像修复领域存在结构丢失、纹理模糊、不能够充分利用背景信息生成内容风格一致的填充区域的问题,在编码解码网络基础上,提出带有多尺度结构信息与注意力机制的共享修复模型。在生成阶段,嵌入多尺度结构信息为图像修复提供前提条件。同时使用多尺度注意力机制,从背景信息中获取相关信息,并经过细化,生成与图像相关的内容和结构;使用PatchGAN和固定权重VGG-16分类器作为鉴别器,并将风格损失和感知损失引入到对抗网络中,以实现所生成图像的风格一致性。在Places2数据集上与当前主流的图像修复算法进行对比,实验结果表明该算法与其他算法相比能较好地恢复图像结构的细节信息,生成更清晰、精细的修复结果。  相似文献   

20.
针对传统日语翻译机器人自动问答检索极易出现语义丢失现象,导致生成答复和检索准确率低的问题,设计一个基于生成式和检索式相结合的外语翻译机器人自动问答检索系统。基于BiLSTM网络中的Seq2Seq模型,通过加入注意力机制、Beam Search算法和TF-IDF算法,分别构建生成式和检索式回复模型;最后将两个模型相结合实现外语翻译机器人自动问答检索。实验结果表明,相较于单向LSTM网络,双向BiLSTM可实现日语语句的双向预测,可有效避免部分语义丢失。且构建的检索式回复模型的回复正确率均保持在90%以上,最高可达95%,生成式模型回复模型在60次测试中,相关回复率最高为96.67%。由此可知,设计的系统可提升外语翻译机器人生成答复和检索准确率,可实现准确的自动问答检索,具备一定的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号