首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 546 毫秒
1.
近年来,生成对抗网络(GAN)在从文本描述到图像的生成中已经取得了显著成功,但仍然存在图像边缘模糊、局部纹理不清晰以及生成样本方差小等问题。针对上述不足,在叠加生成对抗网络模型(StackGAN++)基础上,提出了一种多层次结构生成对抗网络(MLGAN)模型,该网络模型由多个生成器和判别器以层次结构并列组成。首先,引入层次结构编码方法和词向量约束来改变网络中各层次生成器的条件向量,使图像的边缘细节和局部纹理更加清晰生动;然后,联合训练生成器和判别器,借助多个层次的生成图像分布共同逼近真实图像分布,使生成样本方差变大,增加生成样本的多样性;最后,从不同层次的生成器生成对应文本的不同尺度图像。实验结果表明,在CUB和Oxford-102数据集上MLGAN模型的Inception score分别达到了4.22和3.88,与StackGAN++相比,分别提高了4.45%和3.74%。MLGAN模型在解决生成图像的边缘模糊和局部纹理不清晰方面有了一定提升,其生成的图像更接近真实图像。  相似文献   

2.
参考规范是指专业知识点的相关文本描述,参考规范指导下的文本生成任务要求自动生成的文本满足与参考规范的语义相关性和知识点匹配性,是自然语言处理领域中的困难问题。相关工作主要控制生成文本的情感、态度等通用性质,无法满足专业层面的复杂控制需求。为此,该文提出了基于对抗架构的专业文本生成模型(PT-GAN),采用多个独立的生成器分别生成不同知识点匹配程度的文本,各生成器均为自编码器结构,其中编码器用于提取参考规范文本的知识点语义特征,解码器用于生成文本;采用两个判别器同时对生成文本的语言规范和专业知识进行指导,其中连贯性判别器用于指导语言规范,专业性判别器用于控制专业层面属性。在多个国家级专业考试真实数据集上进行实验,结果显示该文模型在语言连贯性、与参考规范的语义相关性和知识点匹配性上均有明显提升,更符合该场景下的文本生成需求。  相似文献   

3.
多聚焦图像融合能够融合同一场景下具有不同聚焦部分的一系列图像.为了克服多聚焦图像融合模糊特征提取中存在的不足,提出一种基于U-Net的生成对抗网络模型.首先,生成器采用U-Net和SSE对多聚焦图像的特征进行提取,并完成图像融合;其次,判别器采用卷积层对已知的融合结果和生成器生成的融合图像进行分辨;然后,损失函数采用生成器的对抗损失、映射损失、梯度损失、均方误差损失和判别器对抗损失对生成网络进行参数调节;最后,将生成器、判别器和损失函数组成生成对抗网络模型,并进行实验.Pascal VOC2012数据集作为生成对抗网络的训练集,包括近焦图像、远焦图像、映射图像和融合图像.实验结果证明,该生成对抗网络模型能够有效地提取多聚焦图像中的模糊特征,且融合图像在互信息、相位一致性和感知相似性等方面表现优异.  相似文献   

4.
林静  黄玉清  李磊民 《计算机应用》2020,40(8):2345-2350
由于网络训练不稳定,基于生成对抗网络(GAN)的图像超分辨率重建存在模式崩溃的现象。针对此问题,提出了一种基于球形几何矩匹配与特征判别的球面双判别器超分辨率重建网络SDSRGAN,通过引入几何矩匹配与高频特征判别来改善网络训练的稳定性。首先,生成器对图像提取特征并通过上采样生成重建图像;接着,球面判别器将图像特征映射至高维球面空间,充分利用特征数据的高阶统计信息;然后,在传统判别器的基础上增加特征判别器,提取图像高频特征,重建特征高频分量和结构分量两方面;最后,对生成器与双判别器进行博弈训练,提高生成器重建图像质量。实验结果表明,所提算法能有效收敛,其网络能够稳定训练,峰值信噪比(PSNR)为31.28 dB,结构相似性(SSIM)为0.872,而与双三次差值、超分辨率残差网络(SRResNet)、加速的卷积神经网络超分辨率(FSRCNN)、基于GAN的单图像超分辨率(SRGAN)和增强型超分辨率生成对抗网络(ESRGAN)算法相比,所提算法的重建图像具有更加逼真的结构纹理细节。所提算法为基于GAN的图像超分辨率研究提供了球形矩匹配与特征判别的双判别方法,在实际应用中可行且有效。  相似文献   

5.
生成对抗网络(generative adversarial network, GAN)已成为图像生成问题中常用的模型之一,但是GAN的判别器在训练过程中易出现梯度消失而导致训练不稳定,以致无法获得最优化的GAN而影响生成图像的质量。针对该问题,设计满足Lipschitz条件的谱归一化卷积神经网络(CNN with spectral normalization, CSN)作为判别器,并采用具有更强表达能力的Transformer作为生成器,由此提出图像生成模型TCSNGAN。CSN判别器网络结构简单,解决了GAN模型的训练不稳定问题,且能依据数据集的图像分辨率配置可调节的CSN模块数,以使模型达到最佳性能。在公共数据集CIFAR-10和STL-10上的实验结果表明,TCSNGAN模型复杂度低,生成的图像质量优;在火灾图像生成中的实验结果表明,TCSNGAN可有效解决小样本数据集的扩充问题。  相似文献   

6.
针对素描图像和可见光图像存在较大模态差异这一问题,提出一种基于转换生成网络的素描人脸识别方法,该网络同时实现跨模态图像生成和素描人脸识别.转换生成网络由生成器、判别器和特征转换网络(S网络)组成.生成器生成图像,判别器使得生成图像具备两种模态信息,S网络提取高级语义特征来辅助生成图像和识别.使用端对端训练来更新模型参数...  相似文献   

7.
基于深度学习的目标检测算法在工业检测中应用广泛,为解决工业缺陷数据不足的问题,提出了一种基于pix2pix改进的缺陷数据增强方法。从加强生成器和判别器对图像中缺陷区域的注意力出发,针对pix2pix进行了如下改进:(1)仅将整幅图像的缺陷区域作为判别器的输入,以此提升生成器对缺陷区域的注意力,同时,判别器采用了更小的卷积核提取缺陷区域的特征;(2)仅将图像中所有缺陷区域的平均生成对抗损失作为该图像的生成对抗损失,使网络更加关注缺陷区域的特征学习。在工业LED缺陷数据集上的实验结果表明,本方法生成的缺陷具有更逼真的视觉效果和更低的FID指数,同时有效提升了基于RetinaNet算法的缺陷检测精度。  相似文献   

8.
高媛  刘志  秦品乐  王丽芳 《计算机应用》2018,38(9):2689-2695
针对医学影像超分辨率重建过程中细节丢失导致的模糊问题,提出了一种基于深度残差生成对抗网络(GAN)的医学影像超分辨率算法。首先,算法包括生成器网络和判别器网络,生成器网络生成高分辨率图像,判别器网络辨别图像真伪。然后,通过设计生成器网络的上采样采用缩放卷积来削弱棋盘效应,并去掉标准残差块中的批量规范化层以优化网络;进一步增加判别器网络中特征图数量以加深网络等方面提高网络性能。最后,用生成损失和判别损失来不断优化网络,指导生成高质量的图像。实验结果表明,对比双线性内插、最近邻插值、双三次插值法、基于深度递归神经网络、基于生成对抗网络的超分辨率方法(SRGAN),所提算法重建出了纹理更丰富、视觉更逼真的图像。相比SRGAN方法,所提算法在峰值信噪比(PSNR)和结构相似度(SSIM)上有0.21 dB和0.32%的提升。所提算法为医学影像超分辨率的理论研究提供了深度残差生成对抗网络的方法,在其实际应用中可靠、有效。  相似文献   

9.
针对低照度环境下采集图像存在低信噪比、低分辨率和低照度的问题,提出了一种基于稠密连接网络(DenseNet)生成对抗网络的低照度图像增强方法.利用DenseNet框架建立生成器网络,并将PatchGAN作为判别器网络;将低照度图像传入生成器网络生成照度增强图像,同时利用判别器网络负责监督生成器对低照度图像的增强效果,通...  相似文献   

10.
文本生成图像是机器学习领域非常具有挑战性的任务,虽然目前已经有了很大突破,但仍然存在模型训练不稳定以及梯度消失等问题。针对这些不足,在堆叠生成对抗网络(StackGAN)基础上,提出一种结合谱归一化与感知损失函数的文本生成图像模型。首先,该模型将谱归一化运用到判别器网络中,将每层网络梯度限制在固定范围内,相对减缓判别器网络的收敛速度,从而提高网络训练的稳定性;其次,将感知损失函数添加到生成器网络中,增强文本语义与图像内容的一致性。使用Inception score评估所提模型生成图像的质量。实验结果表明,该模型与原始StackGAN相比,具有更好的稳定性且生成图像更加逼真。  相似文献   

11.
目的 近年来关于人脸老化/去龄化的研究在深度学习的推动下取得了飞速发展,2017年提出的条件对抗自编码器(CAAE)人脸老化/去龄化模型生成的人脸不仅可信度高,而且更贴近目标年龄。然而在人脸老化/去龄化过程中仍存在生成图像分辨率低、人工鬼影噪声严重(生成人脸器官扭曲)等问题。为此,在CAAE的基础上,提出一个人脸老化/去龄化的高质量图像生成模型(HQGM)。方法 用边界平衡对抗生成网络(BEGAN)替换CAAE中的对抗生成网络(GAN)。BEGAN在人脸图像生成上不仅分辨率更高而且具有更好的视觉效果。在此基础上,添加两个提高生成图像质量的损失函数:图像梯度差损失函数和人脸特征损失函数。图像梯度差损失函数通过缩小生成图像和真实图像的图像梯度,使生成图像具有更多轮廓等高频信息;人脸特征损失函数将生成图像和真实图像分别输入到配置预训练参数的VGG-FACE网络模型中,输出各自的特征图。通过缩小两幅特征图的对应点差值,使生成图像具有更多真实图像的人脸特征信息。结果 实验使用UTKface、FGnet和Morph数据集,经过训练,每幅测试图像分别生成10幅不同年龄的图像。与CAAE相比,HQGM可以有效去除人工鬼影噪声,峰值信噪比高3.2 dB,结构相似性高0.06,提升显著。结论 HQGM可以生成具有丰富纹理信息和人脸特征信息的人脸老化/去龄化图像。  相似文献   

12.
为解决现有文本引导图像修复模型在处理文本图像融合时模态间信息缺乏高效融合导致修复结果不真实且语义一致性差的问题,提出一种通过条件批量归一化融合图像文本特征实现文本引导的图像修复模型BATF。首先,通过空间区域归一化编码器对破损和未破损区域分别归一化,减少了直接特征归一化对均值方差偏移的影响;其次,将提取的图像特征与文本特征向量通过深度仿射变换进行融合,增强了生成器网络特征图的视觉语义嵌入,使图像和文本特征得到更有效的融合;最后,为增强修复图像的纹理真实性及语义一致性,设计了一种高效鉴别器并引入了目标感知鉴别器。在CUB brid这个带有文本标签的数据集上进行定量和定性实验表明,提出的模型在PSNR(peak signal-to-noise ratio)、SSIM (structural similarity)以及MAE(mean absolute error)度量指标分别达到了20.86、0.836和23.832。实验结果表明,BATF模型对比现有的MMFL和ALMR模型效果更好,修复的图像既符合给定文本属性的要求又具有高度语义一致性。  相似文献   

13.
图像生成是虚拟现实技术(virtual reality,VR)中的重要技术手段,针对传统图片生成方法需要大量的数据集进行训练,且生成的图片轮廓不清晰等问题,采用基于深度卷积神经网络和生成对抗网络来实现图片的生成。为了保证生成图片的真实性和完整性,在图片生成阶段引入变分自编码器,通过编码器获取到输入图片数据的均值和方差,将图片对应的隐藏变量转化为标准的高斯分布,然后通过生成器生成新的图片;在识别阶段,采用深度卷积神经网络训练判别器,将生成的新的图片输入到已经训练好的判别器中,运用梯度下降法计算损失函数,不断优化整体系统模型。通过对MNIST图像数据集的训练,实验表明该方法能生成质量较高的图片,它生成的图像无法用肉眼与真实数据区分开,并且在不同网络条件下都有较高的识别率。该方法提高了MNIST生成模型的技术水平。  相似文献   

14.
为了有效地修复大面积破损的面部图像,使用了解码器-编码器结构的卷积神经网络作为生成模型,并在其部分层之间增加skip-connection,以增强生成模型的结构信息预测能力,同时引入对抗训练策略优化生成模型。该模型首先训练一个判别模型识别真实图像,再利用其判别待修复图像输入生成模型后所得到的输出是否为真实,以此为生成模型提供优化梯度。结合了卷积神经网络的结构信息预测能力和GANs对抗策略的优化能力,提高了图像补全的效果。在CelebA人脸数据集上进行的实验结果表明,该方法在补全大面积破损的图像任务上性能明显优于其他方法。  相似文献   

15.
向晴  袁健华 《软件》2020,(3):11-17
图像翻译是一类重要的视觉问题,其目标是学习两个视觉域之间的映射,同时保持原始结构或语义。图像翻译研究领域主要存在两个难点,一是缺少配对的图片训练集;二是很难由单个输入产生多种输出。基于解表示的图像翻译模型(DRIT)虽然同时解决这两个难点,但输出的结果显示仍然存在生成图像质量不佳的问题。造成输出质量不佳的一个原因是由于从判别器到生成器的梯度反向传播过程较长,使得训练初期生成器的梯度所包含信息量较少。在DRIT模型研究基础上,本文提出了一种基于多层次判别的多目标图像翻译模型,一定程度上解决了生成图像质量不佳的问题。我们的数值实验结果也表明了本文提出的多层次判别结构对输出质量的提高具有一定的帮助。  相似文献   

16.
杨婉香  严严  陈思  张小康  王菡子 《软件学报》2020,31(7):1943-1958
行人重识别是指在多个非重叠摄像头拍摄的场景下,给定一幅查询行人图像,从大规模行人图像库中检索出具有相同身份的行人图像,是一类特殊的图像检索任务.随着深度学习的不断发展,行人重识别方法的性能得到了显著提升.但是行人重识别在实际应用中经常遭遇遮挡问题(例如背景遮挡、行人互相遮挡等).由于遮挡图像不仅丢失了部分目标信息,而且引入了额外的干扰,使得现有方法往往难以学习到鲁棒的特征表示,从而导致识别性能严重下降.最近,生成对抗网络在各类计算机视觉任务上展现出强大的图像生成能力.受到生成对抗网络的启发,提出了一种基于多尺度生成对抗网络的遮挡行人重识别方法.首先,利用成对的遮挡图像和非遮挡图像训练一个多尺度生成器和一个判别器.多尺度生成器能够对随机遮挡区域进行去遮挡操作,生成高质量的重构图;而判别器能够区分输入图像是真实图像还是生成图像.其次,利用训练好的多尺度生成器,生成去除随机遮挡的训练图像,添加到原始训练图像集,用于增加训练样本的多样性.最后,基于此扩充训练图像集,训练分类识别模型,有效地提高模型在测试图像集上的泛化性.在多个有挑战性的行人重识别数据集上的实验结果,验证了所提出方法的有效性.  相似文献   

17.
Recent studies have shown remarkable success in face image generation task. However, existing approaches have limited diversity, quality and controllability in generating results. To address these issues, we propose a novel end-to-end learning framework to generate diverse, realistic and controllable face images guided by face masks. The face mask provides a good geometric constraint for a face by specifying the size and location of different components of the face, such as eyes, nose and mouse. The framework consists of four components: style encoder, style decoder, generator and discriminator. The style encoder generates a style code which represents the style of the result face; the generator translate the input face mask into a real face based on the style code; the style decoder learns to reconstruct the style code from the generated face image; and the discriminator classifies an input face image as real or fake. With the style code, the proposed model can generate different face images matching the input face mask, and by manipulating the face mask, we can finely control the generated face image. We empirically demonstrate the effectiveness of our approach on mask guided face image synthesis task.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号