首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 421 毫秒
1.
目的 现有视觉问答方法通常只关注图像中的视觉物体,忽略了对图像中关键文本内容的理解,从而限制了图像内容理解的深度和精度。鉴于图像中隐含的文本信息对理解图像的重要性,学者提出了针对图像中场景文本理解的“场景文本视觉问答”任务以量化模型对场景文字的理解能力,并构建相应的基准评测数据集TextVQA(text visual question answering)和ST-VQA(scene text visual question answering)。本文聚焦场景文本视觉问答任务,针对现有基于自注意力模型的方法存在过拟合风险导致的性能瓶颈问题,提出一种融合知识表征的多模态Transformer的场景文本视觉问答方法,有效提升了模型的稳健性和准确性。方法 对现有基线模型M4C(multimodal multi-copy mesh)进行改进,针对视觉对象间的“空间关联”和文本单词间的“语义关联”这两种互补的先验知识进行建模,并在此基础上设计了一种通用的知识表征增强注意力模块以实现对两种关系的统一编码表达,得到知识表征增强的KR-M4C(knowledge-representation-enhanced M4C)方法。结果 在TextVQA和ST-VQA两个场景文本视觉问答基准评测集上,将本文KR-M4C方法与最新方法进行比较。本文方法在TextVQA数据集中,相比于对比方法中最好的结果,在不增加额外训练数据的情况下,测试集准确率提升2.4%,在增加ST-VQA数据集作为训练数据的情况下,测试集准确率提升1.1%;在ST-VQA数据集中,相比于对比方法中最好的结果,测试集的平均归一化Levenshtein相似度提升5%。同时,在TextVQA数据集中进行对比实验以验证两种先验知识的有效性,结果表明提出的KR-M4C模型提高了预测答案的准确率。结论 本文提出的KR-M4C方法的性能在TextVQA和ST-VQA两个场景文本视觉问答基准评测集上均有显著提升,获得了在该任务上的最好结果。  相似文献   

2.
目的 人脸超分辨率重建是特定应用领域的超分辨率问题,为了充分利用面部先验知识,提出一种基于多任务联合学习的深度人脸超分辨率重建算法。方法 首先使用残差学习和对称式跨层连接网络提取低分辨率人脸的多层次特征,根据不同任务的学习难易程度设置损失权重和损失阈值,对网络进行多属性联合学习训练。然后使用感知损失函数衡量HR(high-resolution)图像与SR(super-resolution)图像在语义层面的差距,并论证感知损失在提高人脸语义信息重建效果方面的有效性。最后对人脸属性数据集进行增强,在此基础上进行联合多任务学习,以获得视觉感知效果更加真实的超分辨率结果。结果 使用峰值信噪比(PSNR)和结构相似度(SSIM)两个客观评价标准对实验结果进行评价,并与其他主流方法进行对比。实验结果显示,在人脸属性数据集(CelebA)上,在放大8倍时,与通用超分辨率MemNet(persistent memory network)算法和人脸超分辨率FSRNet(end-to-end learning face super-resolution network)算法相比,本文算法的PSNR分别提升约2.15 dB和1.2 dB。结论 实验数据与效果图表明本文算法可以更好地利用人脸先验知识,产生在视觉感知上更加真实和清晰的人脸边缘和纹理细节。  相似文献   

3.
融合图像场景及物体先验知识的图像描述生成模型   总被引:1,自引:0,他引:1       下载免费PDF全文
目的 目前基于深度卷积神经网络(CNN)和长短时记忆(LSTM)网络模型进行图像描述的方法一般是用物体类别信息作为先验知识来提取图像CNN特征,忽略了图像中的场景先验知识,造成生成的句子缺乏对场景的准确描述,容易对图像中物体的位置关系等造成误判。针对此问题,设计了融合场景及物体类别先验信息的图像描述生成模型(F-SOCPK),将图像中的场景先验信息和物体类别先验信息融入模型中,协同生成图像的描述句子,提高句子生成质量。方法 首先在大规模场景类别数据集Place205上训练CNN-S模型中的参数,使得CNN-S模型能够包含更多的场景先验信息,然后将其中的参数通过迁移学习的方法迁移到CNNd-S中,用于捕捉待描述图像中的场景信息;同时,在大规模物体类别数据集Imagenet上训练CNN-O模型中的参数,然后将其迁移到CNNd-O模型中,用于捕捉图像中的物体信息。提取图像的场景信息和物体信息之后,分别将其送入语言模型LM-S和LM-O中;然后将LM-S和LM-O的输出信息通过Softmax函数的变换,得到单词表中每个单词的概率分值;最后使用加权融合方式,计算每个单词的最终分值,取概率最大者所对应的单词作为当前时间步上的输出,最终生成图像的描述句子。结果 在MSCOCO、Flickr30k和Flickr8k 3个公开数据集上进行实验。本文设计的模型在反映句子连贯性和准确率的BLEU指标、反映句子中单词的准确率和召回率的METEOR指标及反映语义丰富程度的CIDEr指标等多个性能指标上均超过了单独使用物体类别信息的模型,尤其在Flickr8k数据集上,在CIDEr指标上,比单独基于物体类别的Object-based模型提升了9%,比单独基于场景类别的Scene-based模型提升了近11%。结论 本文所提方法效果显著,在基准模型的基础上,性能有了很大提升;与其他主流方法相比,其性能也极为优越。尤其是在较大的数据集上(如MSCOCO),其优势较为明显;但在较小的数据集上(如Flickr8k),其性能还有待于进一步改进。在下一步工作中,将在模型中融入更多的视觉先验信息,如动作类别、物体与物体之间的关系等,进一步提升描述句子的质量。同时,也将结合更多视觉技术,如更深的CNN模型、目标检测、场景理解等,进一步提升句子的准确率。  相似文献   

4.
目的 场景图能够简洁且结构化地描述图像。现有场景图生成方法重点关注图像的视觉特征,忽视了数据集中丰富的语义信息。同时,受到数据集长尾分布的影响,大多数方法不能很好地对出现概率较小的三元组进行推理,而是趋于得到高频三元组。另外,现有大多数方法都采用相同的网络结构来推理目标和关系类别,不具有针对性。为了解决上述问题,本文提出一种提取全局语义信息的场景图生成算法。方法 网络由语义编码、特征编码、目标推断以及关系推理等4个模块组成。语义编码模块从图像区域描述中提取语义信息并计算全局统计知识,融合得到鲁棒的全局语义信息来辅助不常见三元组的推理。目标编码模块提取图像的视觉特征。目标推断和关系推理模块采用不同的特征融合方法,分别利用门控图神经网络和门控循环单元进行特征学习。在此基础上,在全局统计知识的辅助下进行目标类别和关系类别推理。最后利用解析器构造场景图,进而结构化地描述图像。结果 在公开的视觉基因组数据集上与其他10种方法进行比较,分别实现关系分类、场景图元素分类和场景图生成这3个任务,在限制和不限制每对目标只有一种关系的条件下,平均召回率分别达到了44.2%和55.3%。在可视化实验中,相比性能第2的方法,本文方法增强了不常见关系类别的推理能力,同时改善了目标类别与常见关系的推理能力。结论 本文算法能够提高不常见三元组的推理能力,同时对于常见的三元组也具有较好的推理能力,能够有效地生成场景图。  相似文献   

5.
目的 传统图像修复方法缺乏对图像高级语义的理解,只能应对结构纹理简单的小面积受损。现有的端到端深度学习图像修复方法在大量训练图像的支持下克服了上述局限性,但由于这些方法试图在约束不足的情况下恢复整个目标,修复的图像往往存在边界模糊和结构扭曲问题。对此,本文提出一种语义分割结构与边缘结构联合指导的深度学习图像修复方法。方法 该方法将图像修复任务分解为语义分割重建、边缘重建和内容补全3个阶段。首先重建缺失区域的语义分割结构,然后利用重建的语义分割结构指导缺失区域边缘结构的重建,最后利用重建的语义分割结构与边缘结构联合指导图像缺失区域内容的补全。结果 在CelebAMask-HQ(celebfaces attributes mask high quality)人脸数据集和Cityscapes城市景观数据集上,将本文方法与其他先进的图像修复方法进行对比实验。在掩膜比例为50%60%的情况下,与性能第2的方法相比,本文方法在Celebamask-HQ数据集上的平均绝对误差降低了4.5%,峰值信噪比提高了1.6%,结构相似性提高了1.7%;在Cityscapes数据集上平均绝对误差降低了4.2%,峰值信噪比提高了1.5%,结构相似性提高了1.9%。结果表明,本文方法在平均绝对误差、峰值信噪比和结构相似性3个指标上均优于对比方法,且生成的图像边界清晰,视觉上更加合理。结论 本文提出的3阶段图像修复方法在语义分割结构与边缘结构的联合指导下,有效减少了结构重建错误。当修复涉及大面积缺失时,该方法比现有方法具有更高的修复质量。  相似文献   

6.
目的 传统视觉场景识别(visual place recognition,VPR)算法的性能依赖光学图像的成像质量,因此高速和高动态范围场景导致的图像质量下降会进一步影响视觉场景识别算法的性能。针对此问题,提出一种融合事件相机的视觉场景识别算法,利用事件相机的低延时和高动态范围的特性,提升视觉场景识别算法在高速和高动态范围等极端场景下的识别性能。方法 本文提出的方法首先使用图像特征提取模块提取质量良好的参考图像的特征,然后使用多模态特征融合模块提取查询图像及其曝光区间事件信息的多模态融合特征,最后通过特征匹配查找与查询图像最相似的参考图像。结果 在MVSEC(multi-vehicle stereo event camera dataset)和RobotCar两个数据集上的实验表明,本文方法对比现有视觉场景识别算法在高速和高动态范围场景下具有明显优势。在高速高动态范围场景下,本文方法在MVSEC数据集上相较对比算法最优值在召回率与精度上分别提升5.39%和8.55%,在Robot‐Car数据集上相较对比算法最优值在召回率与精度上分别提升3.36%与4.41%。结论 本文提出了融合事件相机的视觉场景识别算法,利用了事件相机在高速和高动态范围场景的成像优势,有效提升了视觉场景识别算法在高速和高动态范围场景下的场景识别性能。  相似文献   

7.
目的 显著性目标检测是机器视觉应用的基础,然而目前很多方法在显著性物体与背景相似、低光照等一些复杂场景得到的效果并不理想。为了提升显著性检测的性能,提出一种多支路协同的RGB-T(thermal)图像显著性目标检测方法。方法 将模型主体设计为两条主干网络和三条解码支路。主干网络用于提取RGB图像和Thermal图像的特征表示,解码支路则分别对RGB特征、Thermal特征以及两者的融合特征以协同互补的方式预测图像中的显著性物体。在特征提取的主干网络中,通过特征增强模块实现多模图像的融合互补,同时采用适当修正的金字塔池化模块,从深层次特征中获取全局语义信息。在解码过程中,利用通道注意力机制进一步区分卷积神经网络(convolutional neural networks,CNN)生成的特征在不同通道之间对应的语义信息差异。结果 在VT821和VT1000两个数据集上进行测试,本文方法的最大F-measure值分别为0.843 7和0.880 5,平均绝对误差(mean absolute error,MAE)值分别为0.039 4和0.032 2,相较于对比方法,提升了整体检测性能。结论 通过对比实验表明,本文提出的方法提高了显著性检测的稳定性,在一些低光照场景取得了更好效果。  相似文献   

8.
史静  朱虹  王栋  杜森 《中国图象图形学报》2017,22(12):1750-1757
目的 目前对于场景分类问题,由于其内部结构的多样性和复杂性,以及光照和拍摄角度的影响,现有算法大多通过单纯提取特征进行建模,并没有考虑场景图像中事物之间的相互关联,因此,仍然不能达到一个理想的分类效果。本文针对场景分类中存在的重点和难点问题,充分考虑人眼的视觉感知特性,利用显著性检测,并结合传统的视觉词袋模型,提出了一种融合视觉感知特性的场景分类算法。方法 首先,对图像进行多尺度分解,并提取各尺度下的图像特征,接着,检测各尺度下图像的视觉显著区域,最后,将显著区域信息与多尺度特征进行有机融合,构成多尺度融合窗选加权SIFT特征(WSSIFT),对场景进行分类。结果 为了验证本文算法的有效性,该算法在3个标准数据集SE、LS以及IS上进行测试,并与不同方法进行比较,分类准确率提高了约3%~17%。结论 本文提出的融合视觉感知特性的场景分类算法,有效地改善了单纯特征描述的局限性,并提高了图像的整体表达。实验结果表明,该算法对于多个数据集都具有较好的分类效果,适用于场景分析、理解、分类等机器视觉领域。  相似文献   

9.
目的 基于视觉的3维场景重建技术已在机器人导航、航拍地图构建和增强现实等领域得到广泛应用。不过,当相机出现较大运动时则会使得传统基于窄基线约束的3维重建方法无法正常工作。方法 针对宽基线环境,提出了一种融合高层语义先验的3维场景重建算法。该方法在马尔可夫随机场(MRF)模型的基础上,结合超像素的外观、共线性、共面性和深度等多种特征对不同视角图像中各个超像素的3维位置和朝向进行推理,从而实现宽基线条件下的初始3维重建。与此同时,还以递归的方式利用高层语义先验对相似深度超像素实现合并,进而对场景深度和3维模型进行渐进式优化。结果 实验结果表明,本文方法在多种不同的宽基线环境,尤其是相机运动较为剧烈的情况下,依然能够取得比传统方法更为稳定而精确的深度估计和3维场景重建效果。结论 本文展示了在宽基线条件下如何将多元图像特征与基于三角化的几何特征相结合以构建出精确的3维场景模型。本文方法采用MRF模型对不同视角图像中超像素的3维位置和朝向进行同时推理,并结合高层语义先验对3维重建的过程提供指导。与此同时,还使用了一种递归式框架以实现场景深度的渐进式优化。实验结果表明,本文方法在不同的宽基线环境下均能够获得比传统方法更接近真实描述的3维场景模型。  相似文献   

10.
目的 随着高光谱成像技术的飞速发展,高光谱数据的应用越来越广泛,各场景高光谱图像的应用对高精度详细标注的需求也越来越旺盛。现有高光谱分类模型的发展大多集中于有监督学习,大多数方法都在单个高光谱数据立方中进行训练和评估。由于不同高光谱数据采集场景不同且地物类别不一致,已训练好的模型并不能直接迁移至新的数据集得到可靠标注,这也限制了高光谱图像分类模型的进一步发展。本文提出跨数据集对高光谱分类模型进行训练和评估的模式。方法 受零样本学习的启发,本文引入高光谱类别标签的语义信息,拟通过将不同数据集的原始数据及标签信息分别映射至同一特征空间以建立已知类别和未知类别的关联,再通过将训练数据集的两部分特征映射至统一的嵌入空间学习高光谱图像视觉特征和类别标签语义特征的对应关系,即可将该对应关系应用于测试数据集进行标签推理。结果 实验在一对同传感器采集的数据集上完成,比较分析了语义—视觉特征映射和视觉—语义特征映射方向,对比了5种基于零样本学习的特征映射方法,在高光谱图像分类任务中实现了对分类模型在不同数据集上的训练和评估。结论 实验结果表明,本文提出的基于零样本学习的高光谱分类模型可以实现跨数据集对分类模型进行训练和评估,在高光谱图像分类任务中具有一定的发展潜力。  相似文献   

11.
目的 基于学习的超分辨率重建由于引入了先验知识,可以更好地描述图像的细节部分,显著地增强图像的分辨率,改善图像的视觉效果。将超分辨率重建应用在素描人脸识别中,既可以增加人脸图像的质量也可以有效地提高识别精度。方法 首先利用特征脸算法根据素描图像合成人脸灰度图像,然后对合成的人脸图像利用稀疏表示进行超分辨率重建,最后利用主成分分析对重建前后的合成人脸分别进行识别。结果 在香港中文大学的素描人脸库(CUFS)上进行实验。经过超分辨率重建之后的人脸在眼睛等部位细节描述更好。同时,由于重建过程中引入了先验知识,重建之后的素描人脸识别率有提高。支持向量机算法得到的识别率由重建前的65%提高至66%,本文利用的主成分分析算法得到的识别率由重建前的87%提高至89%。结论 基于超分辨率重建的素描人脸识别算法可以有效地改善合成人脸图像的视觉效果并且提高素描人脸识别精度。  相似文献   

12.
目的 人脸活体检测是人脸识别技术安全的重要保障,而背景环境的负面干扰是限制检测系统性能的关键问题。针对这一问题,提出了一种基于面部纹理和前/背景差异分析的人脸活体检测模型。方法 首先,基于新型骨干网络构建面部纹理分析模块,为模型提供充足的面部纹理信息,减缓模型受背景差异的负面干扰;接着,结合边缘检测算法思想对前/背景差异分析模块的卷积核重新改写,以此突出面部边缘的细节特征;最后,设计注意力特征融合模块将两个分流模块有机结合,提升模型在各种复杂环境下的可靠性。结果 在CASIA-MFSD(CASIA-mobile face spoofing dataset)、Replay-Attack和OULU-NPU等3个数据集上做了多组对比实验,在CASIA-MFSD数据集上的等错误率(equal error rate,EER)为0.19%,在Replay-Attack数据集上的等错误率和半错误率(half total error rate,HTER)均为0.00%和0.00%,在OULU-NPU数据集4个协议上的平均分类错误率(average classification error rate,A...  相似文献   

13.
目的 改变正立和倒立面孔只是一种简单倒置关系的观点,研究基于视觉神经整体和局部信息流的正立和倒立面孔混合识别。方法 模拟视觉信息流在视通路中的传递和处理过程,首先构建底层神经网络,建立敏感纹理特征以及对称卷积核的机制,实现正立和倒立面孔图像的去除冗余和预处理;接着提出一种基于局部区域提取的池化神经网络层的概念,构建多局部特征融合的网络结构,实现局部信息的压缩提取和融合;最后根据高级视觉皮层中左右半脑协作的特点,提出一种融合整体和局部信息的预测函数。结果 以AT&T数据库为例,本文方法在经典卷积神经网络模型上增加了多局部特征融合的网络结构,识别准确率从98%提高到100%,表明局部信息能够提高对正立面孔识别的能力;同时采用合适的训练数据集,调节融合时整体与局部信息的关系比,结合使用合适模型训练方式,该模型对正立和倒立面孔的识别率分别为100%和93%,表明对正立和倒立面孔识别具有良好的特性。结论 本文方法说明了整体和局部特征的两条视觉通路虽然分别在正立和倒立面孔识别上起了决定性的作用,但它们并不是孤立存在的,两条通路所刻画的面孔信息应该是一种互补式的关系。不仅为面孔识别提供一种新思路,而且将有助于对视觉神经机制的进一步理解。  相似文献   

14.
针对当前一些主流的深度神经网络模型旨在追求准确率的提升,而忽略了模型的实时性及模型大小问题,提出了一种轻量级目标识别深度神经网络。基于深度分离卷积、分组卷积等轻量化的高效卷积方式,设计了用于图像特征提取的不变分辨率卷积模块和下采样模块,并依此构建了深度主干网络,并对网络进行了减枝。在创建的数据集上对视觉感知的目标识别模型进行了实验验证,获得了72.7%的mAP,在NVIDIA 1080Ti GPU上推理速度达到66.7 帧/s。  相似文献   

15.
陈莉明  田茂  颜佳 《计算机应用研究》2021,38(11):3500-3505
跨年龄人脸识别因其在现实生活中的广泛应用而成为人脸识别领域的热门话题.针对跨年龄人脸识别精度较低的问题,引入解纠缠表示学习,提出了一个基于生成对抗网络的解纠缠表示学习(IPDRL)网络来实现人脸图像的识别.该网络由编码器、生成器和鉴别器构成.编码器在对特征中的年龄变化进行解纠缠的同时,对人脸图像的身份信息进行编码,提取只利于身份鉴别的特征,实现身份特征和年龄特征的解纠缠;生成器根据输入的年龄特征生成对应的身份保持的年龄图像;鉴别器通过对抗学习和多任务学习实现年龄和身份的类分布预测.通过将解纠缠表示学习、对抗学习和多任务学习相结合的方法,很好地保留了人脸图像的身份信息,并使跨年龄人脸图像识别的精度得到了提高.  相似文献   

16.
为更好获取人脸局部表情特征,提出了一种融合局部二值模式(Local Binary Pattern,LBP)和局部稀疏表示的人脸表情特征与识别方法。为深入分析表情对人脸子区域的影响,根据五官特征对人脸进行非均匀分区,并提取局部LBP特征;为精细刻画人脸局部纹理,整合人脸局部特征,设计了人脸局部稀疏重构表示方法,并根据表情对各局部子区域的影响因子,加权融合局部重构残差进行人脸表情识别。在JAFFE2表情人脸库上的对比实验,验证了该方法的可行性和鲁棒性。  相似文献   

17.
U-Net在图像分割领域取得了巨大成功,然而卷积和下采样操作导致部分位置信息丢失,全局和长距离的语义交互信息难以被学习,并且缺乏整合全局和局部信息的能力。为了提取丰富的局部细节和全局上下文信息,提出了一个基于卷积胶囊编码器和局部共现的医学图像分割网络MLFCNet (network based on convolution capsule encoder and multi-scale local feature co-occurrence)。在U-Net基础上引入胶囊网络模块,学习目标位置信息、局部与全局的关系。同时利用提出的注意力机制保留网络池化层丢弃的信息,并且设计了新的多尺度特征融合方法,从而捕捉全局信息并抑制背景噪声。此外,提出了一种新的多尺度局部特征共现算法,局部特征之间的关系能够被更好地学习。在两个公共数据集上与九种方法进行了比较,相比于性能第二的模型,该方法的mIoU在肝脏医学图像中提升了4.7%,Dice系数提升了1.7%。在肝脏医学图像和人像数据集上的实验结果表明,在相同的实验条件下,提出的网络优于U-Net和其他主流的图像分割网络。  相似文献   

18.
中文命名实体识别常使用字符嵌入作为神经网络模型的输入,但是中文没有明确的词语边界,字符嵌入的方法会导致部分语义信息的丢失。针对此问题,该文提出了一种基于多颗粒度文本表征的中文命名实体识别模型。首先,在模型输入端结合了字词表征,然后借助N-gram编码器挖掘N-gram中潜在的成词信息,有效地联合了三种不同颗粒度的文本表征,丰富了序列的上下文表示。该文在Weibo、Resume和OntoNotes4数据集上进行了实验,实验结果的F1值分别达到了72.41%、96.52%、82.83%。与基准模型相比,该文提出的模型具有更好的性能。  相似文献   

19.
现有的基于深度学习的人脸超分辨算法大部分仅仅利用一种网络分区重建高分辨率输出图像,并未考虑人脸图像中的结构性信息,导致了在人脸的重要器官重建上缺乏足够的细节信息。针对这一问题,提出一种基于组合学习的人脸超分辨率算法。该算法独立采用不同深度学习模型的优势重建感兴趣的区域,由此在训练网络的过程中每个人脸区域的数据分布不同,不同的子网络能够获得更精确的先验信息。首先,对人脸图像采用超像素分割算法生成人脸组件部分和人脸背景图像;然后,采用人脸组件生成对抗网络(C-GAN)独立重建人脸组件图像块,并采用人脸背景重建网络生成人脸背景图像;其次,使用人脸组件融合网络将两种不同模型重建的人脸组件图像块自适应融合;最后,将生成的人脸组件图像块合并至人脸背景图像中,重建出最终的人脸图像。在FEI数据集上的实验结果表明,与人脸图像超分辨率算法通过组件生成和增强学习幻构人脸图像(LCGE)及判决性增强的生成对抗网络(EDGAN)相比,所提算法的峰值信噪比(PSNR)值分别高出1.23 dB和1.11 dB。所提算法能够采用不同深度学习模型的优势组合学习重建更精准的人脸图像,同时拓展了图像重建先验的来源。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号