期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李飞宇杨俊桑高丽《中国图象图形学报》2024,29(4):953-965

目的图像逆半色调的目的是从二值半色调图像中恢复出连续色调图像。半色调图像丢失了大量原始图像内容信息,因此逆半色调成为一个经典的图像重建病态问题。现有的逆半色调算法重建效果无法满足对图像细节和纹理的需求。此外,已有方法大多忽略了训练策略对模型优化的重要影响,导致模型性能较差。针对上述问题,提出一个逆半色调网络以提高半色调图像重建质量。方法首先提出一个端到端的多尺度渐进式残差学习网络（multiscale progressivoly residual learning network,MSPRL）以恢复出更高质量的连续色调图像。该网络基于UNet架构并以多尺度图像作为输入;为充分利用不同尺度输入图像的信息,设计一个浅层特征提取模块以捕获多尺度图像的注意力信息;同时探讨不同学习策略对模型训练和性能的影响。结果实验在7个数据集上与6种方法进行对比。在Place365和Kodak数据集上,相比性能第2的方法,峰值信噪比（peak signal-to-noise ratio,PSNR）分别提高0.12dB和0.18dB;在其他5个常用于图像超分辨率的测试数据集Set5、Set14、BSD100（Berkeley segmentation dataset 100）、Urban100和Manga109上,相比性能第2的方法,PSNR值分别提高0.11dB、0.25dB、0.08dB、0.39dB和0.35dB。基于本文的训练策略,重新训练的渐进式残差学习网络相比未优化训练模型在7个数据集上PSNR平均提高1.44dB。本文方法在图像细节和纹理重建上实现最优效果。实验表明选用合适的学习策略能够优化模型训练,对性能提升具有重要帮助。结论本文提出的逆半色调模型,综合UNet架构和多尺度图像信息的优点,选用合适的训练策略,使得图像重建的细节与纹理更加清晰,视觉效果更加细致。本文算法代码公布在https://github.com/Feiyuli-cs/MSPRL。相似文献

2.

对抗型长短期记忆网络的雷达回波外推算法

下载免费PDF全文

方巍庞林张飞鸿盛胜利《中国图象图形学报》2021,26(5):1067-1080

目的雷达回波外推是进行短临降水预测的一种重要方法,相较于传统的数值天气预报方法能够实现更快、更准确的预测。基于卷积长短期记忆网络（convolutional long short-term memory network,ConvLSTM）的回波外推算法的效果优于其他的深度学习外推算法,但是忽略了普通卷积运算在面对局部变化特征时的局限性,并且在外推过程中将损失函数简单定义为均方误差（mean squared error,MSE）,忽略了外推图像与原始图像的分布相似性,容易导致信息丢失。为解决以上不足,提出了一种基于对抗型光流长短期记忆网络（deep convolutional generative adversarial flow based long short-term memory network,DCF-LSTM）的回波外推算法。方法首先,采用光流追踪局部特征的方式改进ConvLSTM,突破了一般卷积核面对局部变化特征的限制。然后,以光流长短期记忆网络（flow based long short-term memory network, FLSTM）作为基本模块构建外推模型。最后,引入对抗网络,与外推模型组成端到端的博弈系统DCF-LSTM,两者交替训练实现外推图像分布向原图像分布的拟合。结果在4种不同的反射率强度下进行了消融研究,并与3种主流的气象业务算法进行了对比。实验结果表明,DCF-LSTM在所有评价指标中表现最优,尤其在反射率为35 dBZ的条件下。结论由实验结果可知,引入光流法能够使模型具有更好的抗畸变性,引入深度卷积生成对抗网络（deep convolutional generative adversarial network,DCGAN）判别模块能进一步增加结果的准确性。本文提出的DCF-LSTM回波外推算法相比于其他算法,雷达外推准确率获得了进一步提升。相似文献

3.

基于半监督对抗学习的图像语义分割

下载免费PDF全文

李志欣张佳吴璟莉马慧芳《中国图象图形学报》2022,27(7):2157-2170

目的将半监督对抗学习应用于图像语义分割,可以有效减少训练过程中人工生成标记的数量。作为生成器的分割网络的卷积算子只具有局部感受域,因此对于图像不同区域之间的远程依赖关系只能通过多个卷积层或增加卷积核的大小进行建模,但这种做法也同时失去了使用局部卷积结构获得的计算效率。此外,生成对抗网络（generative adversarial network,GAN）中的另一个挑战是判别器的性能控制。在高维空间中,由判别器进行的密度比估计通常是不准确且不稳定的。为此,本文提出面向图像语义分割的半监督对抗学习方法。方法在生成对抗网络的分割网络中附加两层自注意模块,在空间维度上对语义依赖关系进行建模。自注意模块通过对所有位置的特征进行加权求和,有选择地在每个位置聚合特征。因而能够在像素级正确标记值数据的基础上有效处理输入图像中广泛分离的空间区域之间的关系。同时,为解决提出的半监督对抗学习方法的稳定性问题,在训练过程中将谱归一化应用到对抗网络的判别器中,这种加权归一化方法不仅可以稳定判别器网络的训练,并且不需要对唯一的超参数进行密集调整即可获得满意性能,且实现简单,计算量少,即使在缺乏互补的正则化技术的情况下,谱归一化也可以比权重归一化和梯度损失更好地改善生成图像的质量。结果实验在Cityscapes数据集及PASCAL VOC 2012（pattern analysis,statistical modeling and computational learning visual object classes）数据集上与9种方法进行比较。在Cityscapes数据集中,相比基线模型,性能提高了2.3%~3.2%。在PASCAL VOC 2012数据集中,性能比基线模型提高了1.4%~2.5%。同时,在PASCAL VOC 2012数据集上进行消融实验,可以看出本文方法的有效性。结论本文提出的半监督对抗学习的语义分割方法,通过引入的自注意力机制捕获特征图上各像素之间的依赖关系,应用谱归一化增强对抗生成网络的稳定性,表现出了较好的鲁棒性和有效性。相似文献

4.

并行生成网络的红外—可见光图像转换

下载免费PDF全文

余佩伦施佺王晗《中国图象图形学报》2021,26(10):2346-2356

目的针对现有图像转换方法的深度学习模型中生成式网络（generator network）结构单一化问题，改进了条件生成式对抗网络（conditional generative adversarial network，CGAN）的结构，提出了一种融合残差网络（ResNet）和稠密网络（DenseNet）两种不同结构的并行生成器网络模型。方法构建残差、稠密生成器分支网络模型，输入红外图像，分别经过残差、稠密生成器分支网络各自生成可见光转换图像，并提出一种基于图像分割的线性插值算法，将各生成器分支网络的转换图像进行融合，获取最终的可见光转换图像；为防止小样本条件下的训练过程中出现过拟合，在判别器网络结构中插入dropout层；设计最优阈值分割目标函数，在并行生成器网络训练过程中获取最优融合参数。结果在公共红外-可见光数据集上测试，相较于现有图像转换深度学习模型Pix2Pix和CycleGAN等，本文方法在性能指标均方误差（mean square error，MSE）和结构相似性（structural similarity index，SSIM）上均取得显著提高。结论并行生成器网络模型有效融合了各分支网络结构的优点，图像转换结果更加准确真实。相似文献

5.

Edge-guided GAN：边界信息引导的深度图像修复

下载免费PDF全文

刘坤华王雪辉谢玉婷胡坚耀《中国图象图形学报》2021,26(1):186-197

目的目前大多数深度图像修复方法可分为两类：色彩图像引导的方法和单个深度图像修复方法。色彩图像引导的方法利用色彩图像真值,或其上一帧、下一帧提供的信息来修复深度图像。若缺少相应信息,这类方法是无效的。单个深度图像修复方法可以修复数据缺失较少的深度图像。但是,无法修复带有孔洞（数据缺失较大）的深度图像。为解决以上问题,本文将生成对抗网络（generative adversarial network,GAN）应用于深度图像修复领域,提出了一种基于GAN的单个深度图像修复方法,即Edge-guided GAN。方法首先,通过Canny算法获得待修复深度图像的边界图像,并将此两个单通道图像（待修复深度图像和边界图像）合并成一个2通道数据;其次,设计Edge-guided GAN高性能的生成器、判别器和损失函数,将此2通道数据作为生成器的输入,训练生成器,以生成器生成的深度图像（假值）和深度图像真值为判别器的输入,训练判别器;最终得到深度图像修复模型,完成深度图像修复。结果在Apollo scape数据集上与其他4种常用的GAN、不带边界信息的Edge-guided GAN进行实验分析。在输入尺寸为256×256像素,掩膜尺寸为32×32像素情况下,Edge-guided GAN的峰值信噪比（peak signal-to-noise ratio,PSN）比性能第2的模型提高了15.76%;在掩膜尺寸为64×64像素情况下,Edge-guided GAN的PSNR比性能第2的模型提高了18.64%。结论 Edge-guided GAN以待修复深度图像的边界信息为其修复的约束条件,有效地提取了待修复深度图像特征,大幅度地提高了深度图像修复的精度。相似文献

6.

Re-GAN：残差生成式对抗网络算法

下载免费PDF全文

史彩娟涂冬景刘靖祎《中国图象图形学报》2021,26(3):594-604

目的生成式对抗网络（generative adversarial network,GAN）是一种无监督生成模型,通过生成模型和判别模型的博弈学习生成图像。GAN的生成模型是逐级直接生成图像,下级网络无法得知上级网络学习的特征,以至于生成的图像多样性不够丰富。另外,随着网络层数的增加,参数变多,反向传播变得困难,出现训练不稳定和梯度消失等问题。针对上述问题,基于残差网络（residual network,ResNet）和组标准化（group normalization,GN）,提出了一种残差生成式对抗网络（residual generative adversarial networks,Re-GAN）。方法 Re-GAN在生成模型中构建深度残差网络模块,通过跳连接的方式融合上级网络学习的特征,增强生成图像的多样性和质量,改善反向传播过程,增强生成式对抗网络的训练稳定性,缓解梯度消失。随后采用组标准化（GN）来适应不同批次的学习,使训练过程更加稳定。结果在Cifar10、CelebA和LSUN数据集上对算法的性能进行测试。Re-GAN的IS （inception score）均值在批次为64时,比DCGAN （deep convolutional GAN）和WGAN （Wasserstein-GAN）分别提高了5%和30%,在批次为4时,比DCGAN和WGAN分别提高了0.2%和13%,表明无论批次大小,Re-GAN生成图像具有很好的多样性。Re-GAN的FID （Fréchet inception distance）在批次为64时比DCGAN和WGAN分别降低了18%和11%,在批次为4时比DCGAN和WGAN分别降低了4%和10%,表明Re-GAN生成图像的质量更好。同时,Re-GAN缓解了训练过程中出现的训练不稳定和梯度消失等问题。结论实验结果表明,在图像生成方面,Re-GAN的生成图像质量高、多样性强;在网络训练方面,Re-GAN在不同批次下的训练具有更好的兼容性,使训练过程更加稳定,梯度消失得到缓解。相似文献

7.

部件检测和语义网络的细粒度鞋类图像检索

下载免费PDF全文

陈前刘骊付晓东刘利军黄青松《中国图象图形学报》2020,25(8):1578-1590

目的细粒度图像检索是当前细粒度图像分析和视觉领域的热点问题。以鞋类图像为例,传统方法仅提取其粗粒度特征且缺少关键的语义属性,难以区分部件间的细微差异,不能有效用于细粒度检索。针对鞋类图像检索大多基于简单款式导致检索效率不高的问题,提出一种结合部件检测和语义网络的细粒度鞋类图像检索方法。方法结合标注后的鞋类图像训练集对输入的待检鞋类图像进行部件检测;基于部件检测后的鞋类图像和定义的语义属性训练语义网络,以提取待检图像和训练图像的特征向量,并采用主成分分析进行降维;通过对鞋类图像训练集中每个候选图像与待检图像间的特征向量进行度量学习,按其匹配度高低顺序输出检索结果。结果实验在UT-Zap50K数据集上与目前检索效果较好的4种方法进行比较,检索精度提高近6%。同时,与同任务的SHOE-CNN（semantic hierarchy of attribute convolutional neural network）检索方法比较,本文具有更高的检索准确率。结论针对传统图像特征缺少细微的视觉描述导致鞋类图像检索准确率低的问题,提出一种细粒度鞋类图像检索方法,既提高了鞋类图像检索的精度和准确率,又能较好地满足实际应用需求。相似文献

8.

多通道递归残差网络的图像超分辨率重建

下载免费PDF全文

程德强郭昕陈亮亮寇旗旗赵凯高蕊《中国图象图形学报》2021,26(3):605-618

目的基于神经网络的图像超分辨率重建技术主要是通过单一网络非线性映射学习得到高低分辨率之间特征信息关系来进行重建,在此过程中较浅网络的图像特征信息很容易丢失,加深网络深度又会增加网络训练时间和训练难度。针对此过程出现的训练时间长、重建结果细节信息较模糊等问题,提出一种多通道递归残差学习机制,以提高网络训练效率和图像重建质量。方法设计一种多通道递归残差网络模型,该模型首先利用递归方法将残差网络块进行复用,形成32层递归网络,来减少网络参数、增加网络深度,以加速网络收敛并获取更丰富的特征信息。然后采集不同卷积核下的特征信息,输入到各通道对应的递归残差网络后再一起输入到共用的重建网络中,提高对细节信息的重建能力。最后引入一种交叉学习机制,将通道1、2、3两两排列组合交叉相连,进一步加速不同通道特征信息融合、促进参数传递、提高网络重建性能。结果本文模型使用DIV2K （DIVerse 2K）数据集进行训练,在Set5、Set14、BSD100和Urban100数据集上进行测试,并与Bicubic、SRCNN （super-resolution convolutional neural network）、VDSR （super-resolution using very deep convolutional network）、LapSRN （deep Laplacian pyramid networks for fast and accurate super-resolution）和EDSR_baseline （enhanced deep residual networks for single image super-resolution_baseline）等方法的实验结果进行对比,结果显示前者获取细节特征信息能力提高,图像有了更清晰丰富的细节信息;客观数据方面,本文算法的数据有明显的提升,尤其在细节信息较多的Urban100数据集中PSNR （peak signal-to-noise ratio）平均分别提升了3.87 dB、1.93 dB、1.00 dB、1.12 dB和0.48 dB,网络训练效率相较非递归残差网络提升30%。结论本文模型可获得更好的视觉效果和客观质量评价,而且相较非递归残差网络训练过程耗时更短,可用于复杂场景下图像的超分辨率重建。相似文献

9.

由粗到精的多尺度散焦模糊检测

下载免费PDF全文

衡红军叶何斌周末黄睿《中国图象图形学报》2021,26(3):581-593

目的散焦模糊检测致力于区分图像中的清晰与模糊像素，广泛应用于诸多领域，是计算机视觉中的重要研究方向。待检测图像含复杂场景时，现有的散焦模糊检测方法存在精度不够高、检测结果边界不完整等问题。本文提出一种由粗到精的多尺度散焦模糊检测网络，通过融合不同尺度下图像的多层卷积特征提高散焦模糊的检测精度。方法将图像缩放至不同尺度，使用卷积神经网络从每个尺度下的图像中提取多层卷积特征，并使用卷积层融合不同尺度图像对应层的特征；使用卷积长短时记忆（convolutional long-short term memory，Conv-LSTM）层自顶向下地整合不同尺度的模糊特征，同时生成对应尺度的模糊检测图，以这种方式将深层的语义信息逐步传递至浅层网络；在此过程中，将深浅层特征联合，利用浅层特征细化深一层的模糊检测结果；使用卷积层将多尺度检测结果融合得到最终结果。本文在网络训练过程中使用了多层监督策略确保每个Conv-LSTM层都能达到最优。结果在DUT （Dalian University of Technology）和CUHK （The Chinese University of Hong Kong）两个公共的模糊检测数据集上进行训练和测试，对比了包括当前最好的模糊检测算法BTBCRL （bottom-top-bottom network with cascaded defocus blur detection map residual learning），DeFusionNet （defocus blur detection network via recurrently fusing and refining multi-scale deep features）和DHDE （multi-scale deep and hand-crafted features for defocus estimation）等10种算法。实验结果表明：在DUT数据集上，本文模型相比于DeFusionNet模型，MAE （mean absolute error）值降低了38.8%，F_0.3值提高了5.4%；在CUHK数据集上，相比于LBP （local binary pattern）算法，MAE值降低了36.7%，F_0.3值提高了9.7%。通过实验对比，充分验证了本文提出的散焦模糊检测模型的有效性。结论本文提出的由粗到精的多尺度散焦模糊检测方法，通过融合不同尺度图像的特征，以及使用卷积长短时记忆层自顶向下地整合深层的语义信息和浅层的细节信息，使得模型在不同的图像场景中能得到更加准确的散焦模糊检测结果。相似文献

10.

基于中间层监督卷积神经网络的图像超分辨率重建

下载免费PDF全文

李现国孙叶美杨彦利苗长云《中国图象图形学报》2018,23(7):984-993

目的基于学习的图像超分辨率重建方法已成为近年来图像超分辨率重建研究的热点。针对基于卷积神经网络的图像超分辨率重建（SRCNN）方法网络层少、感受野小、泛化能力差等缺陷,提出了基于中间层监督卷积神经网络的图像超分辨率重建方法,以进一步提高图像重建的质量。方法设计了具有中间层监督的卷积神经网络结构,该网络共有16层卷积层,其中第7层为中间监督层;定义了监督层误差函数和重建误差函数,用于改善深层卷积神经网络梯度消失现象。训练网络时包括图像预处理、特征提取和图像重建3个步骤,采用不同尺度因子（2、3、4）模糊的低分辨率图像交叉训练网络,以适应对不同模糊程度的图像重建;使用卷积操作提取图像特征时将参数pad设置为1,提高了对图像和特征图的边缘信息利用;利用残差学习完成高分辨率图像重建。结果在Set5和Set14数据集上进行了实验,并和双三次插值、A+、SelfEx和SRCNN等方法的结果进行比较。在主观视觉评价方面,本文方法重建图像的清晰度和边缘锐度更好。客观评价方面,本文方法的峰值信噪比（PSNR）平均分别提高了2.26 dB、0.28 dB、0.28 dB和0.15 dB,使用训练好的网络模型重建图像耗用的时间不及SRCNN方法的一半。结论实验结果表明,本文方法获得了更好的主观视觉评价和客观量化评价,提升了图像超分辨率重建质量,泛化能力好,而且图像重建过程耗时更短,可用于自然场景图像的超分辨率重建。相似文献

11.

多尺度判别条件生成对抗网络的前列腺MRI图像分割方法

下载免费PDF全文

何俊吴从中丁正龙许良凤詹曙《中国图象图形学报》2019,24(9):1581-1587

目的由MRI（magnetic resonance imaging）得到的影像具有分辨率高、软组织对比好等优点,使得医生能更精确地获得需要的信息,精确的前列腺MRI分割是计算机辅助检测和诊断算法的必要预处理阶段。因此临床上需要一种自动或半自动的前列腺分割算法,为各种各样的临床应用提供具有鲁棒性、高质量的结果。提出一种多尺度判别条件生成对抗网络对前列腺MRI图像进行自动分割以满足临床实践的需求。方法提出的分割方法是基于条件生成对抗网络,由生成器和判别器两部分组成。生成器由类似U-Net的卷积神经网络组成,根据输入的MRI生成前列腺区域的掩膜;判别器是一个多尺度判别器,同一网络结构,输入图像尺寸不同的两个判别器。为了训练稳定,本文方法使用了特征匹配损失。在网络训练过程中使用对抗训练机制迭代地优化生成器和判别器,直至判别器和生成器同时收敛为止。训练好的生成器即可完成前列腺MRI分割。结果实验数据来自PROMISE12前列腺分割比赛和安徽医科大学第一附属医院,以Dice相似性系数和Hausdorff距离作为评价指标,本文算法的Dice相似性系数为88.9%,Hausdorff距离为5.3 mm,与U-Net、DSCNN（deeply-supervised convolutional neured network）等方法相比,本文算法分割更准确,鲁棒性更高。在测试阶段,每幅图像仅需不到1 s的时间即可完成分割,超出了专门医生的分割速度。结论提出了一种多尺度判别条件生成对抗网络来分割前列腺,从定量和定性分析可以看出本文算法的有效性,能够准确地对前列腺进行分割,达到了实时分割要求,符合临床诊断和治疗需求。相似文献

12.

多层次感知残差卷积网络的单幅图像超分重建

下载免费PDF全文

何蕾程佳豪占志钰杨雯博刘沛然《中国图象图形学报》2021,26(4):776-786

目的单幅图像超分辨率重建的深度学习算法中,大多数网络都采用了单一尺度的卷积核来提取特征（如3×3的卷积核）,往往忽略了不同卷积核尺寸带来的不同大小感受域的问题,而不同大小的感受域会使网络注意到不同程度的特征,因此只采用单一尺度的卷积核会使网络忽略了不同特征图之间的宏观联系。针对上述问题,本文提出了多层次感知残差卷积网络（multi-level perception residual convolutional network,MLP-Net,用于单幅图像超分辨率重建）。方法通过特征提取模块提取图像低频特征作为输入。输入部分由密集连接的多个多层次感知模块组成,其中多层次感知模块分为浅层多层次特征提取和深层多层次特征提取,以确保网络既能注意到图像的低级特征,又能注意到高级特征,同时也能保证特征之间的宏观联系。结果实验结果采用客观评价的峰值信噪比（peak signal to noise ratio,PSNR）和结构相似性（structural similarity,SSIM）两个指标,将本文算法其他超分辨率算法进行了对比。最终结果表明本文算法在4个基准测试集上（Set5、Set14、Urban100和BSD100（Berkeley Segmentation Dataset））放大2倍的平均峰值信噪比分别为37.851 1 dB,33.933 8 dB,32.219 1 dB,32.148 9 dB,均高于其他几种算法的结果。结论本文提出的卷积网络采用多尺度卷积充分提取分层特征中的不同层次特征,同时利用低分辨率图像本身的结构信息完成重建,并取得不错的重建效果。相似文献

13.

利用残差密集网络的运动模糊复原方法

下载免费PDF全文

林椹尠张梦凯吴成茂《智能系统学报》2021,16(3):442-448

针对图像生成过程中由于物体运动或相机抖动产生的运动模糊问题,提出了利用残差密集网络的运动模糊图像复原方法。设计对抗网络结构,以残差密集网络为生成器,通过长短连接实现不同层次特征的融合,生成复原图像,以深度卷积网络为判别器,判断图像真伪,在生成器和判别器的对抗中提高网络性能;采用对抗损失和内容损失结合的损失函数,提高网络的复原效果;以端到端的方式,省略模糊核的估计过程,输入模糊图像直接获取复原图像。实验结果表明,该方法能够取得较好的复原效果。相似文献

14.

基于图像转换的道路图像裂缝检测

阎志文《计算机系统应用》2023,32(4):241-247

深度学习是目前路面图像裂缝检测的主流方法,但是需要大量人工标注的真值图进行训练,而现实中获取人工标注的真值图既费时又费力,本文提出一种基于改进的生成对抗网络的路面图像裂缝检测方法,将路面图像裂缝检测问题视为一类基于图像跨域转换的异常检测问题,采用定点生成对抗网络将裂缝图像无监督自动转换为与之一一对应的无裂缝图像,进而将原图像与生成图像进行差分,差分图中的显著目标对应裂缝检测结果.在公开数据集CrackIT上的测试结果表明,本文方法在不依赖于人工标注的真值图条件下能够实现裂缝的精准检测,本文方法在准确率、召回率、F1分数上取得了与有监督深度学习方法相当的性能. 相似文献

15.

多特征融合的文档图像版面分析

下载免费PDF全文

应自炉赵毅鸿宣晨邓文博《中国图象图形学报》2020,25(2):311-320

目的在文档图像版面分析上,主流的深度学习方法克服了传统方法的缺点,能够同时实现文档版面的区域定位与分类,但大多需要复杂的预处理过程,模型结构复杂。此外,文档图像数据不足的问题导致文档图像版面分析无法在通用的深度学习模型上取得较好的性能。针对上述问题,提出一种多特征融合卷积神经网络的深度学习方法。方法首先,采用不同大小的卷积核并行对输入图像进行特征提取,接着将卷积后的特征图进行融合,组成特征融合模块;然后选取DeeplabV3中的串并行空间金字塔策略,并添加图像级特征对提取的特征图进一步优化;最后通过双线性插值法对图像进行恢复,完成文档版面目标,即插图、表格、公式的定位与识别任务。结果本文采用mIOU（mean intersection over union）以及PA（pixel accuracy）两个指标作为评价标准,在ICDAR 2017 POD文档版面目标检测数据集上的实验表明,提出算法在mIOU与PA上分别达到87.26%和98.10%。对比FCN（fully convolutional networks）,提出算法在mIOU与PA上分别提升约14.66%和2.22%,并且提出的特征融合模块对模型在mIOU与PA上分别有1.45%与0.22%的提升。结论本文算法在一个网络框架下同时实现了文档版面多种目标的定位与识别,在训练上并不需要对图像做复杂的预处理,模型结构简单。实验数据表明本文算法在训练数据较少的情况下能够取得较好的识别效果,优于FCN和DeeplabV3方法。相似文献

16.

融合约束学习的图像字幕生成方法

下载免费PDF全文

杜海骏刘学亮《中国图象图形学报》2020,25(2):333-342

目的图像字幕生成是一个涉及计算机视觉和自然语言处理的热门研究领域，其目的是生成可以准确表达图片内容的句子。在已经提出的方法中，生成的句子存在描述不准确、缺乏连贯性的问题。为此，提出一种基于编码器-解码器框架和生成式对抗网络的融合训练新方法。通过对生成字幕整体和局部分别进行优化，提高生成句子的准确性和连贯性。方法使用卷积神经网络作为编码器提取图像特征，并将得到的特征和图像对应的真实描述共同作为解码器的输入。使用长短时记忆网络作为解码器进行图像字幕生成。在字幕生成的每个时刻，分别使用真实描述和前一时刻生成的字幕作为下一时刻的输入，同时生成两组字幕。计算使用真实描述生成的字幕和真实描述本身之间的相似性，以及使用前一时刻的输出生成的字幕通过判别器得到的分数。将二者组合成一个新的融合优化函数指导生成器的训练。结果在CUB-200数据集上，与未使用约束器的方法相比，本文方法在BLEU-4、BLEU-3、BLEI-2、BLEU-1、ROUGE-L和METEOR等6个评价指标上的得分分别提升了0.8%、1.2%、1.6%、0.9%、1.8%和1.0%。在Oxford-102数据集上，与未使用约束器的方法相比，本文方法在CIDEr、BLEU-4、BLEU-3、BLEU-2、BLEU-1、ROUGE-L和METEOR等7个评价指标上的得分分别提升了3.8%、1.5%、1.7%、1.4%、1.5%、0.5%和0.1%。在MSCOCO数据集上，本文方法在BLEU-2和BLEU-3两项评价指标上取得了最优值，分别为50.4%和36.8%。结论本文方法将图像字幕中单词前后的使用关系纳入考虑范围，并使用约束器对字幕局部信息进行优化，有效解决了之前方法生成的字幕准确度和连贯度不高的问题，可以很好地用于图像理解和图像字幕生成。相似文献

17.

局部可视对抗扰动生成方法

周星宇潘志松胡谷雨段晔鑫《模式识别与人工智能》2020,33(1):11-20

深度神经网络极易受到局部可视对抗扰动的攻击.文中以生成对抗网络为基础,提出局部可视对抗扰动生成方法.首先,指定被攻击的分类网络作为判别器,并在训练过程中固定参数不变.再构建生成器模型,通过优化欺骗损失、多样性损失和距离损失,使生成器产生局部可视对抗扰动,并叠加在不同输入样本的任意位置上攻击分类网络.最后,提出类别比较法,分析局部可视对抗扰动的有效性.在公开的图像分类数据集上实验表明,文中方法攻击效果较好. 相似文献

18.

一种改进DCGANs网络的磁瓦缺陷图像生成方法研究

张晋谢珺梁凤梅续欣莹董俊杰《小型微型计算机系统》2021,(3):589-594

基于机器视觉的磁瓦表面缺陷检测研究对于改进磁瓦生产工艺、提升磁瓦生产效率有着重要意义.但在研究过程中,存在磁瓦含缺陷样本收集困难、不同缺陷样本数不均匀、缺陷类型单一等问题.本文提出一种使用高斯混合模型的深度卷积生成对抗网络(Gaussian Mixture Model Deep Convolution Generative Adversarial Networks,GMM-DCGANs)生成含缺陷磁瓦图像的方法.在深度卷积生成对抗网络的基础上,将生成图像的输入噪声潜在空间复杂化为高斯混合模型,从而提高图像生成网络对有限数量且具有类间及类内多样性训练样本的学习能力.实验结果表明,GMMDCGANs网络可以生成质量更好、缺陷类型更加丰富的磁瓦缺陷图像,并且生成的图像满足缺陷检测及分类的要求. 相似文献