期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

吴福祥程俊《软件学报》2022,33(9):3139-3151

基于文本的图像编辑是多媒体领域的一个研究热点并具有重要的应用价值。由于它是根据给定的文本编辑源图像,而文本和图像的跨模态差异很大,因此它是一项很具有挑战的任务。在对编辑过程的直接控制和修正上,目前方法难以有效地实现,但图像编辑是用户喜好导向的,提高可控性可以绕过或强化某些编辑模块以获得用户偏爱的结果。针对该问题,本文提出一种新颖的基于自动编码器的文本图像编辑模型。为了提供便捷且直接的交互配置和编辑接口,该模型在多层级生成对抗网络中引入自动编码器,该自动编码器统一多层级间高维特征空间为颜色空间,从而可以对该颜色空间下的中间编辑结果进行直接修正。其次,为了增强编辑图像细节及提高可控性,本文构造了对称细节修正模块,它以源图像和编辑图像为对称可交换输入,融合文本特征以对前面输入编辑图像进行修正。在MS-COCO和CUB200数据集上的实验表明,该模型可以有效地基于语言描述自动编辑图像,同时可以便捷且友好地修正编辑效果。相似文献

2.

TCSNGAN:基于Transformer和谱归一化CNN的图像生成模型

钱惠敏毛邱凌陈实韩怡星吕本杰《计算机应用研究》2024,41(4):1221-1227

生成对抗网络(generative adversarial network, GAN)已成为图像生成问题中常用的模型之一,但是GAN的判别器在训练过程中易出现梯度消失而导致训练不稳定,以致无法获得最优化的GAN而影响生成图像的质量。针对该问题,设计满足Lipschitz条件的谱归一化卷积神经网络(CNN with spectral normalization, CSN)作为判别器,并采用具有更强表达能力的Transformer作为生成器,由此提出图像生成模型TCSNGAN。CSN判别器网络结构简单,解决了GAN模型的训练不稳定问题,且能依据数据集的图像分辨率配置可调节的CSN模块数,以使模型达到最佳性能。在公共数据集CIFAR-10和STL-10上的实验结果表明,TCSNGAN模型复杂度低,生成的图像质量优;在火灾图像生成中的实验结果表明,TCSNGAN可有效解决小样本数据集的扩充问题。相似文献

3.

基于Transformer交叉注意力的文本生成图像技术

谈馨悦何小海王正勇罗晓东卿粼波《计算机科学》2022,49(2):107-115

近年来,以生成对抗网络为基础的从文本生成图像方法的研究取得了一定的进展.文本生成图像技术的关键在于构建文本信息和视觉信息间的桥梁,促进网络模型生成与对应文本描述一致的逼真图像.目前,主流的方法是通过预训练文本编码器来完成对输入文本描述的编码,但这些方法在文本编码器中未考虑与对应图像的语义对齐问题,独立对输入文本进行编码... 相似文献

4.

基于Transformer的多轨音乐生成对抗网络

汪涛靳聪李小兵帖云齐林《计算机应用》2021,41(12):3585-3589

符号音乐的生成在人工智能领域中仍然是一个尚未解决的问题,面临着诸多挑战。经研究发现,现有的多音轨音乐生成方法在旋律、节奏及和谐度上均达不到市场所要求的效果,并且生成的音乐大多不符合基础的乐理知识。为了解决以上问题,提出一种新颖的基于Transformer的多音轨音乐生成对抗网络（Transformer-GAN）,以乐理规则为指导来产生具有高音乐性的音乐作品。首先,采用Transformer的译码部分与在Transformer基础之上改编的Cross-Track Transformer（CT-Transformer）分别对单音轨内部及多音轨之间的信息进行学习;然后,使用乐理规则和交叉熵损失相结合的方法引导生成网络的训练,并在训练鉴别网络的同时优化精心设计的目标损失函数;最后,生成具有旋律性、节奏性及和谐性的多音轨音乐作品。实验结果表明,与其他多乐器音乐生成模型相比,在钢琴轨、吉他轨及贝斯轨上,Transformer-GAN的预测精确度（PA）最低分别提升了12%、11%及22%,序列相似度（SS）最低分别提升了13%、6%及10%,休止符指标最低分别提升了8%、4%及17%。由此可见,Transformer-GAN在加入了CT-Transformer及音乐规则奖励模块之后能有效提升音乐的PA、SS等指标,使生成的音乐质量整体上有较大的提升。相似文献

5.

基于频域Transformer的对抗生成网络去运动模糊算法

顾军华李岩陈晨牛炳鑫李春杰《现代计算机》2023,(16):15-20+59

对于图像不均匀的运动模糊问题,模型感受野的大小相当重要,基于自注意力机制的Transformer的感受野远大于传统CNN模型。并且引入了高效的频域处理模块,以往结合频域处理模糊的方法忽略了运动模糊在频域图中呈现出来的方向性特征,根据这种特征将其分解处理可以高效地恢复图像。实验中与目前较经典的几个方法进行了对比,模型在GoPro数据集上PSNR得分为32.24 dB,在RealBlur-J数据集上的得分为29.38 dB,效果相较于其他方法在两个数据集上分别提高了0.72 dB和0.83 dB。相似文献

6.

Transformer特征引导的双阶段地图智能生成

下载免费PDF全文

方政付莹刘利雄《中国图象图形学报》2023,28(10):3281-3294

目的现有的地图智能生成技术没有考虑到地图生成任务存在的地理要素类内差异性和地理要素域间差异性,这使得生成的地图质量难以满足实际需要。针对地理要素类内差异性和地理要素域间差异性,提出了一种Transformer特征引导的双阶段地图智能生成方法。方法首先基于最新的Transformer网络,设计了一个基于该网络的特征提取模块,该模块提取遥感图像中的地理要素特征用于引导地图生成,解决了地理要素类内差异性导致的地图生成困难的问题。然后设计双阶段生成框架,该框架具备两个生成对抗网络,第1个生成对抗网络为初步生成对抗网络,利用遥感图像和Transformer特征得到初步的地图图像;第2个生成对抗网络为精修生成对抗网络利用初步地图图像生成高质量的精修地图图像,缓解了地理要素域间差异性导致的地图地理要素生成不准确问题。结果在AIDOMG（aerial image dataset for online map generation）数据集上的9个区域进行了实验,与10种经典的和最新方法进行了比较,提出方法取得了最优的结果。其中,在海口区域,相比于Creative GAN方法,FID （Frechet inception distance）值降低了16.0%,WD （Wasserstein distance）降低了4.2%,1-NN （1-nearest neighbor）降低了5.9%;在巴黎区域,相比于Creative GAN方法,FID值降低了2.9%,WD降低了1.0%,1-NN降低了2.1%。结论提出的Transformer特征引导的双阶段地图智能生成方法通过高质量的Transformer特征引导和双阶段生成框架解决了地理要素类内差异性和地理要素域间差异性所带来的地图生成质量较差的问题。相似文献

7.

基于多级残差映射器的文本驱动人脸图像生成和编辑

李宗霖张盛平刘杨张兆心张维刚黄庆明《软件学报》2023,34(5):2101-2115

尽管生成对抗网络在人脸图像生成和编辑领域取得了巨大的成功,但在其潜在编码空间中寻找可以操作人脸语义属性的方向仍然是计算机视觉的一大挑战,这一挑战的实现需要大量标记数据不断进行网络调优,而搜集、标注类似数据存在诸多难点,比如较高的技术门槛以及大量的人工成本.最近的一些工作都在试图借助预训练模型来克服标记数据短缺的问题.虽然这种做法已经被验证能够完成上述任务,但在操作的准确性和结果的真实性上都无法满足真实人脸编辑场景的需求.借助对比语言-图像预训练模型(CLIP)的图像文本联合表示能力将图像和文本内容编码在一个共享的潜在编码空间中,借助于精心设计的网络结构和损失函数,所提框架可以精准识别相关面部属性并学习一个多级残差映射网络,所提网络可根据图像和文本内容编码预测潜在编码残差,再借助图像生成预训练模型StyleGAN2完成高质量的人脸图像生成和编辑任务.大量实验也证明了所提方法在操作准确性、视觉真实性和无关属性保留方面的优异表现. 相似文献

8.

基于Transformer的结构强化IVOCT导丝伪影去除方法

郭劲文马兴华骆功宁王玮曹阳王宽全《计算机应用》2023,(5):1596-1605

为去除导丝伪影以提高血管内光学相干断层扫描（IVOCT）的图像质量,辅助医师更加准确地诊断心血管疾病,降低误诊及漏诊的概率,针对IVOCT图像结构信息复杂且伪影区域占比大的难点,提出一种采用生成对抗网络（GAN）架构的基于Transformer的结构强化网络（SETN）。首先,GAN的生成器在提取纹理特征的原始图像（ORI）主干生成网络的基础上,并联了RTV(Relative Total Variation)图像强化生成网络用于获取图像的结构信息;其次,在ORI/RTV图像的伪影区域重建过程中,引入了分别关注时/空间域信息的Transformer编码器,用于捕获IVOCT图像序列的上下文信息以及纹理/结构特征之间的关联性;最后,利用结构特征融合模块将不同层次的结构特征融入ORI主干生成网络的解码阶段,配合判别器完成导丝伪影区域的图像重建。实验结果表明,SETN的导丝伪影去除结果在纹理和结构的重建上均十分优秀。此外,导丝伪影去除后IVOCT图像质量的提高,对于IVOCT图像的易损斑块分割及管腔轮廓线提取任务均具有积极意义。相似文献

9.

基于指针生成网络和扩展Transformer的多属性可控文本摘要模型

冼广铭李凡龙郑兆明《计算机系统应用》2024,33(4):246-253

模型可以生成符合用户偏好的摘要.之前的摘要模型侧重于单独控制某个属性,而不是多个属性的组合.传统的Seq2Seq多属性可控文本摘要模型在满足多个控制属性时,存在无法整合所有控制属性、无法准确再现文本中关键信息和无法处理单词表外单词等问题.为此,本文提出了一种基于扩展Transformer和指针生成网络(pointer generator network, PGN)的模型.模型中的扩展Transformer将Transformer单编码器-单解码器的模型形式扩展成具有双重文本语义信息提取的双编码器和单个可融合指导信号特征的解码器形式.然后利用指针生成网络模型选择从源文本中复制单词或利用词汇表生成新的摘要信息,以解决摘要任务中常出现的OOV (out of vocabulary)问题.此外,为高效完成位置信息编码,模型在注意力层中使用相对位置表示来引入文本的序列信息.模型可以用于控制摘要的许多重要属性,包括长度、主题和具体性等.通过在公开数据集MACSum上的实验表明,相较以往方法,本文提出的模型在确保摘要质量的同时,更加符合用户给定的属性要求. 相似文献

10.

基于字体字符属性引导的文本图像编辑方法

陈靖超徐树公丁友东《计算机应用》2023,(5):1416-1421

针对文本图像编辑任务中编辑前后文字风格样式不一致和生成的新文本可读性不足的问题,提出一种基于字体字符属性引导的文本图像编辑方法。首先,通过字体属性分类器结合字体分类、感知和纹理损失引导文本前景风格样式的生成方向,提升编辑前后的文字风格样式一致性;其次,通过字符属性分类器结合字符分类损失引导文字字形的准确生成,减小文本伪影与生成误差,并提升生成的新文本的可读性;最后,通过端到端微调的训练策略为整个分阶段编辑模型精炼生成结果。对比实验中,所提方法的峰值信噪比（PSNR）、结构相似度（SSIM）分别达到了25.48 dB、0.842,相较于SRNet(Style Retention Network)和SwapText分别提高了2.57 dB、0.055和2.11 dB、0.046;均方误差（MSE）为0.004 3,相较于SRNet和SwapText分别降低了0.003 1和0.002 4。实验结果表明,所提方法能有效提升文本图像编辑的生成效果。相似文献

11.

基于边缘学习的低分辨率图像识别算法

刘颖刘玉霞毕萍《计算机应用》2020,40(7):2046-2052

由于受光照条件、拍摄角度、传输设备以及周围环境的影响,刑侦视频图像中的目标物体往往分辨率较低,难以识别。针对低分辨率图像识别问题,在经典LeNet-5识别网络的基础上,提出了一种基于边缘学习的低分辨率图像识别算法。首先由边缘生成对抗网络生成低分辨率图像的幻想边缘,该边缘与高分辨率图像边缘相近;再将该低分辨图像的生成边缘信息作为先验信息融合到识别网络中对低分辨率图像进行识别。在MNIST、EMNIST和Fashion-mnist三个数据集上分别进行实验,结果表明,将低分辨图像的幻想边缘信息融合到识别网络中可以提高低分辨率图像的识别率。相似文献

12.

高分辨率可见光图像引导红外图像超分辨率的Transformer网络

下载免费PDF全文

邱德粉江俊君胡星宇刘贤明马佳义《中国图象图形学报》2023,28(1):196-206

目的红外图像在工业中发挥着重要的作用。但是由于技术原因,红外图像的分辨率一般较低,限制了其普遍适用性。许多低分辨率红外传感器都和高分辨率可见光传感器搭配使用,一种可行的思路是利用可见光传感器捕获的高分辨率图像,辅助红外图像进行超分辨率重建。方法本文提出了一种使用高分辨率可见光图像引导红外图像进行超分辨率的神经网络模型,包含两个模块：引导Transformer模块和超分辨率重建模块。考虑到红外和可见光图像对一般存在一定的视差,两者之间是不完全对齐的,本文使用基于引导Transformer的信息引导与融合方法,从高分辨率可见光图像中搜索相关纹理信息,并将这些相关纹理信息与低分辨率红外图像的信息融合得到合成特征。然后这个合成特征经过后面的超分辨率重建子网络,得到最终的超分辨率红外图像。在超分辨率重建模块,本文使用通道拆分策略来消除深度模型中的冗余特征,减少计算量,提高模型性能。结果本文方法在FLIR-aligned数据集上与其他代表性图像超分辨率方法进行对比。实验结果表明,本文方法可以取得优于对比方法的超分辨率性能。客观结果上,本文方法比其他红外图像引导超分辨率方法在峰值信噪比(pea... 相似文献

13.

基于GAN的手绘草图图像翻译研究综述

王建欣《计算机应用研究》2022,39(8)

目前基于GAN的手绘草图图像翻译工作处于起步阶段,分析了草图图像翻译面临的挑战性问题,从无控制和精细控制的草图图像翻译两个方面对基于GAN的草图图像翻译研究工作进行分析,并对生成图像的评估方法进行总结。基于对已有研究工作的总结归纳,对该领域未来可能的发展趋势进行了展望,为该领域研究人员拓展研究思路提供了线索。相似文献

14.

Mask guided diverse face image synthesis

Song SUN Bo ZHAO Muhammad MATEEN Xin CHEN Junhao WEN 《Frontiers of Computer Science》2022,16(3):163311

Recent studies have shown remarkable success in face image generation task. However, existing approaches have limited diversity, quality and controllability in generating results. To address these issues, we propose a novel end-to-end learning framework to generate diverse, realistic and controllable face images guided by face masks. The face mask provides a good geometric constraint for a face by specifying the size and location of different components of the face, such as eyes, nose and mouse. The framework consists of four components: style encoder, style decoder, generator and discriminator. The style encoder generates a style code which represents the style of the result face; the generator translate the input face mask into a real face based on the style code; the style decoder learns to reconstruct the style code from the generated face image; and the discriminator classifies an input face image as real or fake. With the style code, the proposed model can generate different face images matching the input face mask, and by manipulating the face mask, we can finely control the generated face image. We empirically demonstrate the effectiveness of our approach on mask guided face image synthesis task. 相似文献

15.

深度融合图像文本特征的文本引导图像修复

兰红郭福城《计算机应用研究》2023,40(7)

为解决现有文本引导图像修复模型在处理文本图像融合时模态间信息缺乏高效融合导致修复结果不真实且语义一致性差的问题,提出一种通过条件批量归一化融合图像文本特征实现文本引导的图像修复模型BATF。首先,通过空间区域归一化编码器对破损和未破损区域分别归一化,减少了直接特征归一化对均值方差偏移的影响;其次,将提取的图像特征与文本特征向量通过深度仿射变换进行融合,增强了生成器网络特征图的视觉语义嵌入,使图像和文本特征得到更有效的融合;最后,为增强修复图像的纹理真实性及语义一致性,设计了一种高效鉴别器并引入了目标感知鉴别器。在CUB brid这个带有文本标签的数据集上进行定量和定性实验表明,提出的模型在PSNR（peak signal-to-noise ratio）、SSIM （structural similarity）以及MAE（mean absolute error）度量指标分别达到了20.86、0.836和23.832。实验结果表明,BATF模型对比现有的MMFL和ALMR模型效果更好,修复的图像既符合给定文本属性的要求又具有高度语义一致性。相似文献

16.

基于图像-文本语义一致性的文本生成图像方法

薛志杭许喆铭郎丛妍冯松鹤王涛李浥东《计算机研究与发展》2023,41(9):2180-2190

近年来,以生成对抗网络（generative adversarial network, GAN）为基础的文本生成图像方法成为跨媒体融合研究的一大热门领域. 文本生成图像方法旨在通过提取更具表征力的文本及图像特征,提升文本描述与生成图像之间的语义一致性.现有方法大多针对在图像全局特征与初始文本语义特征之间进行建模,忽略了初始文本特征的局限性,且没有充分利用具有语义一致性的生成图像对文本特征的指导作用,因而降低了文本生成图像中文本信息的表征性. 其次,由于没有考虑到生成目标区域间的动态交互,生成网络只能粗略地划分目标区域,且忽略了图像局部区域与文本语义标签的潜在对应关系.为解决上述问题,提出了一种基于图像-文本语义一致性的文本生成图像方法ITSC-GAN. 该模型首先设计了一个文本信息增强模块（text information enhancement module, TEM）,利用生成图像对文本信息进行增强,从而提高文本特征的表征能力.另外,该模型提出了一个图像区域注意力模块（image regional attention module, IRAM）,通过挖掘图像子区域之间的关系,增强图像特征的表征能力. 通过联合利用这2个模块,使得图像局部特征与文本语义标签之间具有更高的一致性. 最后,该模型使用生成器与判别器损失函数作为约束,以提升生成图像的质量,促进图像与文本描述的语义一致. 实验结果表明,在CUB数据集上,与当前主流方法AttnGAN模型相比,ITSC-GAN模型的IS（inception score）指标增长了约7.42%,FID（Fréchet inception distance）减少了约28.76%,R-precision增加了约14.95%. 大量实验结果充分验证了ITSC-GAN模型的有效性及优越性.

相似文献

17.

基于SAU-NetDCGAN的天气云图生成方法

杨鹏熙侯进游玺任东升杜茂生《计算机应用研究》2023,40(5)

天文台天气监测系统对天气云图存在巨大需求。为解决传统的生成对抗网络在扩充天气云图数据集时模型不稳定以及图像特征丢失等问题,提出一种基于SAU-NetDCGAN的双层嵌入式对抗网络天气云图生成方法,该方法由两层网络相互嵌套组成。首先,第一层嵌入式网络是将U型网络添加到生成对抗式网络的生成器中,该网络作为基础架构,利用编码器与解码器之间的跳跃连接增强图像的边缘特征恢复能力;接着,第二层嵌入式网络是将简化参数注意力机制（simplify-attention,SA）添加到U型网络中,该注意力机制通过简化参数降低了模型复杂度,有效地改善了图像暗部特征丢失的问题;最后设计了一种新的权重计算方式,加强了各特征之间的联系,增加了对图像细节纹理特征的提取。实验结果表明,该方法生成的图像在清晰度、色彩饱和度上与传统的生成对抗网络相比图像质量更好,在峰值信噪比、结构相似性的评价指标下分别提高了27.06 dB和 0.606 5。相似文献

18.

门控融合对抗网络的水下图像增强

下载免费PDF全文

林森刘旭《图学学报》2021,42(6):948-956

针对水下成像中图像存在的色彩失真、对比度低和雾化严重等问题,提出一种门控融合对抗网络的水下图像增强方法.主要特点是使用生成网络将图像特征信息逐像素恢复,并通过门控融合形成清晰图像.首先,利用多个并行子网络对同幅图像的不同空间特征信息进行学习,提升网络对图像特征学习的多样性.然后,通过门控融合,将不同子网络学习到的图像特... 相似文献