首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 281 毫秒
1.
为了探究图像底层视觉特征与高层语义概念存在的差异,提出可以确定图像关注重点、挖掘更高层语义信息以及完善描述句子的细节信息的图像语义描述算法.在图像视觉特征提取时提取输入图像的全局-局部特征作为视觉信息输入,确定不同时刻对图像的关注点,对图像细节的描述更加完善;在解码时加入注意力机制对图像特征加权输入,可以自适应选择当前时刻输出的文本单词对视觉信息与语义信息的依赖权重,有效地提高对图像语义描述的性能.实验结果表明,该方法相对于其他语义描述算法效果更有竞争力,可以更准确、更细致地识别图片中的物体,对输入图像进行更全面地描述;对于微小的物体的识别准确率更高.  相似文献   

2.
为了探究图像底层视觉特征与高层语义概念存在的差异,提出可以确定图像关注重点、挖掘更高层语义信息以及完善描述句子的细节信息的图像语义描述算法.在图像视觉特征提取时提取输入图像的全局-局部特征作为视觉信息输入,确定不同时刻对图像的关注点,对图像细节的描述更加完善;在解码时加入注意力机制对图像特征加权输入,可以自适应选择当前时刻输出的文本单词对视觉信息与语义信息的依赖权重,有效地提高对图像语义描述的性能.实验结果表明,该方法相对于其他语义描述算法效果更有竞争力,可以更准确、更细致地识别图片中的物体,对输入图像进行更全面地描述;对于微小的物体的识别准确率更高.  相似文献   

3.
为了探索图像场景理解所需要的视觉区域间关系的建模与推理,提出视觉关系推理模块. 该模块基于图像中不同的语义和空间上下文信息,对相关视觉对象间的关系模式进行动态编码,并推断出与当前生成的关系词最相关的语义特征输出. 通过引入上下文门控机制,以根据不同类型的单词动态地权衡视觉注意力模块和视觉关系推理模块的贡献. 实验结果表明,对比以往基于注意力机制的图像描述方法,基于视觉关系推理与上下文门控机制的图像描述方法更好;所提模块可以动态建模和推理不同类型生成单词的最相关特征,对输入图像中物体关系的描述更加准确.  相似文献   

4.
基于内容的图像检索技术克服了文本检索方式主观片面的缺陷,客观地描述了图像的本质特征,然而却丢掉了文本方式下对图像的语义描述,导致检索准确率降低.借鉴数据挖掘技术中的图像分类方法,提出了结合视觉特征与图像语义描述以提高检索系统性能的思想,主要进行了图像显著特征选择、图像分类算法特征约简以及检索系统优化设计3方面工作,以提高检索系统的人机界面和交互性能.  相似文献   

5.
基于软注意力机制的图像描述算法,提出类激活映射-注意力机制的图像描述方法。利用类激活映射算法得到卷积特征包含定位以及更丰富的语义信息,使得卷积特征与图像描述具有更好的对应关系,解决卷积特征与图像描述的对齐问题,生成的自然语言描述能够尽可能完整的描述图像内容。选择双层长短时记忆网络改进注意力机制结构,使得新的注意力机制适合当前全局和局部信息的特征表示,能够选取合适的特征表示生成图像描述。试验结果表明,改进模型在诸多评价指标上优于软注意力机制等模型,其中在MSCOCO数据集上Bleu-4的评价指标相较于软注意力模型提高了16.8%。类激活映射机制可以解决图像空间信息与描述语义对齐的问题,使得生成的自然语言减少丢失关键信息,提高图像描述的准确性。  相似文献   

6.
研究面向公路景观图像语义标注的方法,提出一种利用模糊本体描述及推理的区域图像语义标注方法。首先建立图像语义区域标注描述模型,对具有相似特征的区域语义实现图像语义标注,算法重点研究模型中与图像语义标注描述相关的图像区域对象标注描述模型、语义对象空间关系描述、对象语义关系描述、抽象层次结构等关键技术,通过对区域对象语义推理得出全局图像语义标注。实验结果表明,该方法具有较好的语义标注性能。  相似文献   

7.
为提高手语合成视频的真实感,提出一种面向手语合成的视频语义描述方法,并基于语义描述构建出相应的视频数据库.采集特定研究领域的手语视频数据,按照词义把源视频切分成词条基元和基于人体-部件的多层次过渡基元,通过对视频基元每帧图像进行语义描述来建立它们的多维语义模型.每个视频基元的多维语义模型代表了该视频每帧图像所包含的具体手语信息,包括位置、手形、韵律等.在手语合成过程中,通过解析视频的多维语义模型即可实时地调用有用的信息.该视频语义描述方法可为手语合成提供实时一致的语义理解,并且在拼接2段不同韵律的手语视频时,可通过解析出的韵律信息适当地调整过渡帧的插值位置,进而合成韵律一致的过渡视频.  相似文献   

8.
为了实现在光线不佳、夜间施工、远距离密集小目标等复杂施工场景下的图像描述,提出基于注意力机制和编码-解码架构的施工场景图像描述方法. 采用卷积神经网络构建编码器,提取施工图像中丰富的视觉特征;利用长短时记忆网络搭建解码器,捕捉句子内部单词之间的语义特征,学习图像特征与单词语义特征之间的映射关系;引入注意力机制,关注显著性强的特征,抑制非显著性特征,减少噪声信息的干扰. 为了验证所提方法的有效性,构建一个包含10种常见施工场景的图像描述数据集. 实验结果表明,所提方法取得了较高的精度,在光线不佳、夜间施工、远距离密集小目标等复杂施工场景下具有良好的图像描述性能,且具有较强的泛化性和适应性.  相似文献   

9.
一种基于实例的图像自动语义标注方法   总被引:1,自引:0,他引:1  
在基于内容的图像检索中,图像的标注字能够缩小图像的高级语义和低级视觉内容之间的差距.并方便检索.但手工标注费时费力且结果具有主观不一致性,而图像的自动语义标注能够将图像的视觉特征转化为图像的标注字信息,为用户的使用带来了极大的方便.本文提出了一种基于实例的图像自动语义标注方法.该方法的优点是可以根据以往的标注经验自动确定图像标注信息,克服了手工标注的缺点,也可以方便地扩展为半自动标注,为标注者提供了一个简单方便的标注接口.  相似文献   

10.
一种基于多层语义相似性度量的图像检索方法   总被引:3,自引:0,他引:3  
图像通常用关键词表示其语义信息,基于关键词的图像检索方式存在因用户理解差异而导致对图像语义理解的歧义问题。文中利用语言学本体WordNet中单词的语义层次,并综合考虑单词之间的同义关系、上下位关系等不同层次的抽象语义信息,通过建立检索词和标注词间的语义关联,统一不同用户对图像语义的理解和描述,再结合单词在不同抽象层次的语义信息计算图像的相似性距离,实现了基于高层语义的图像检索。实验结果表明,上述方法能有效提高图像的检索性能。  相似文献   

11.
为了解决真实场景的动态范围与数字图像的动态范围不匹配的问题,提出一种基于细节特征合成的高动态范围图像获取算法。该方法首先提取多幅不同曝光的低动态范围图像的细节特征,细节特征值越大表明所含细节信息越多,然后将归一化的特征值作为权重,合成多幅低动态范围图像,得到一幅高质量的合成图。实验表明,该算法能得到一幅含有较丰富细节特征、动态范围较广的图像,合成图像不需要色调映射就可以较好地在低动态范围显示器上直接显示。  相似文献   

12.
针对卷积神经网络在图像修复过程中难以兼顾修复结果的局部细节和全局语义一致性问题,以生成对抗网络为基础,提出一种多尺度语义学习的编解码人脸图像修复模型.首先,将人脸图像用门控卷积分解为具有不同大小的感受野和特征分辨率的分量,用不同尺寸的卷积核提取多尺度特征,通过提取合适的局部特征来提升修复结果的细节;其次,将提取的多尺度特征输入至语义学习模块,从通道和空间两个角度学习特征之间的语义关系,从而增强修复结果的全局一致性;最后,引入跳跃连接将编码端的特征补充到解码端中减少采样造成的细节信息损失,改善修复结果的纹理细节.在CelebA-HQ人脸数据集上进行实验,结果表明提出的模型在峰值信噪比、结构相似性、l1三个性能指标上均有显著提升,修复的结果在视觉上局部细节和全局语义更合理.  相似文献   

13.
为提高雾霾图像清晰化效果并实现去雾能力的泛化,提出一种特征增强及多尺度损失约束的网络结构,并采用增量式训练方法对网络进行训练。网络由教师网络和学生网络构成。通过学习教师网络提取的标注样本注意力信息对学生网络提取的特征进行特征增强;将标注样本多尺度语义特征作为软标签,建立多尺度语义特征损失衡量机制,与全局像素差异损失级联,构建面向特征和像素的损失函数;采用增量式训练方法,教师网络为学生网络平衡不同数据集的新旧知识提供先验约束,使网络保留原有知识的前提下,快速提高对增补数据集的泛化能力。实验结果表明,所提算法在主观视觉效果与客观评价指标上均取得了较好的效果。  相似文献   

14.
张宇苏    吴小俊    李辉    徐天阳   《南京师范大学学报》2023,(1):001-9
红外和可见光图像表征了互补的场景信息. 现有的基于深度学习的融合方法大多通过独立提取网络分别提取两个源图像特征,从而丢失了源图像之间的深度特征联系. 基于此,提出了一种新的基于无监督深度学习的红外图像与可见光图像融合算法,针对不同模态的特点采用不同的编码方式提取图像特征,利用一个模态的信息补充另一个模态的信息,并对提取到的特征进行融合,最后根据融合特征重建融合图像. 该算法可在两个模态的特征提取路径之间建立交互,不仅可预融合梯度信息和强度信息,且能增强后续处理的信息. 同时设计了损失函数,引导模型保留可见光的细节纹理,并保持红外的强度分布. 将所提算法与多种融合算法在公开数据集上进行对比实验,结果表明,所提算法获得了良好的视觉效果,客观指标评价方面对比现有的优秀算法也有一定的提升.  相似文献   

15.
弱光环境导致图像采集设备拍摄的照片呈现出对比度低、亮度较暗、目标物难以分辨等特点。为了改善图像质量,提出了一种融合注意力引导的多尺度低照度图像增强方法。首先,构建密集残差网络作为多尺度特征提取器,用于提取低照度图像中不同尺度的特征图;其次,利用改进的RefineNet对提取出的不同尺度的特征图进行融合,以便充分利用图像中的特征信息;同时,在网络中引入注意力机制,基于边缘检测结果生成注意力图,并与损失函数相结合来引导网络进行训练,在不增加网络推理负担的同时,增强隐藏在黑暗中的细节信息;最后,实验分别选用合成图像和SID(See-in-the-Dark)数据集进行训练与测试。相较于对比算法,峰值信噪比(PSNR)和结构相似性(SSIM)分别平均提高了约0.79 dB和0.119。结果表明,所提方法能有效提高亮度和对比度,恢复图像边缘细节,主观视觉效果得到提升。  相似文献   

16.
提出了一种基于加权特征的图像自动标注方法.该方法首先采用加权特征聚类算法对图像区域进行语义聚类,这种聚类算法根据图像特征的统计分布来计算特征与类别的相关度,增加相关度高的特征的权重,避免聚类算法被弱相关或不相关的特征所支配;然后,根据训练集中样本图像的标注情况建立图像区域与语义关键字的关联;最后,在未标注图像区域给定时,计算每个语义关键字的条件概率,将条件概率最大的语义概念作为图像的标注. 在Corel图像库的数据集上验证了新方法的有效性.  相似文献   

17.
设计主要用于双焦相机成像系统的连续数字变焦算法. 该算法将双焦相机连续数字变焦问题拆分成长焦相机视场内的特征迁移问题和长焦相机视场外的纹理修复问题. 在实现细节上,该算法参考基于上下文语义的图像修复算法的思路,利用长焦相机图像的纹理信息修复短焦相机图像,并在2个问题上使用相似的网络结构来降低长焦相机视场内外细节视觉效果的差异. 实验结果表明,相比其他算法,所提算法能显著提升变焦图像的质量,有效改善长焦相机视场内外纹理细节差距较大的问题,在主客观评价上都具有更好的表现. 此外,该方法对于处于长焦相机视场外的纹理细节,具有明显的修复效果,对于实际拍摄的图像同样有效.  相似文献   

18.
为跨越高层语义概念与底层视觉特征之间的语义鸿沟, 本研究提出一种新的图像自动标注方法。该方法首先采用灰度直方图方法对图像分割并提取图像区域的纹理特征, 然后利用FCM算法中增大关联度高的特征权重更好地实现对分割后图像区域的聚类效果。最后改进贝叶斯分类器建立图像区域和语义概念间的关联模型, 通过比较测试图像和训练图像间的最大相似度实现测试图像的自动标注。在Corel通用图像数据集上与其他几种方法进行了对比实验, 实验结果表明改进后的标注方法优于传统标注方法。  相似文献   

19.
基于深度特征聚类的海量人脸图像检索   总被引:1,自引:0,他引:1  
针对海量人脸图像数据库检索时长的问题,提出了一种基于深度特征聚类的海量人脸图像检索算法.该算法首先使用人脸图像训练集对深度卷积神经网络模型进行人脸图像分类训练,在此基础上采用三元组损失方法对已训练好的人脸图像分类网络模型进行微调,使得网络能够更加有效地提取人脸图像的高层语义特征,构建更具有表征性的人脸图像深度特征.其次采用K-means聚类算法对提取的人脸图像深度特征进行聚类,使得同一个人的人脸图像能够划分到同一簇中,然后在相应的簇中进行人脸图像的深度特征相似度匹配执行人脸图像检索任务.为了进一步提高系统的检索性能,提出人脸图像深度特征融合的查询扩展方法,对待检索的人脸图像深度特征进行融合再次执行检索任务得到最终的检索结果.通过在两个人脸检索数据集(Celebrities Face Set和Labeled Faces in the Wild dataset)上进行详尽实验验证,结果表明,该算法能极大地缩小海量人脸图像数据库的检索范围,在保证一定准确率的前提下有效地提高了人脸图像检索的速度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号