期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

任金昌赵荣椿叶宇锋夏晓清《计算机应用研究》2002,19(1):115-117

多模态界面技术可以通过多种交互式设备和方法的协作 ,极大地促进人机之间相互理解与信息交流。作为信息处理领域的一个热点 ,基于内容的多媒体检索对多模态界面技术有着内在的需求。首先分析了传统的文字 /图形界面技术、多媒体界面技术和多模态界面技术的不同特性 ,进而着重从媒体表示、特征表示与查询、智能检索等方面 ,深入探讨了多模态界面技术在多媒体检索领域的应用特点相似文献

2.

基于模态特异及模态共享特征信息的多模态细粒度检索

李佩陈乔松陈鹏昌邓欣王进朴昌浩《计算机工程》2022,48(11):62-68+76

跨模态检索的目标是用户给定任意一个样本作为查询样例,系统检索得到与查询样例相关的各个模态样本,多模态细粒度检索在跨模态检索基础上强调模态的数量至少大于两个,且待检索样本的分类标准为细粒度子类,存在多模态数据间的异构鸿沟及细粒度样本特征差异小等难题。引入模态特异特征及模态共享特征的概念,提出一种多模态细粒度检索框架MS2Net。使用分支网络及主干网络分别提取不同模态数据的模态特异特征及模态共享特征,将两种特征通过多模态特征融合模块进行充分融合,同时利用各个模态自身的特有信息及不同模态数据间的共性及联系,增加高维空间向量中包含的语义信息。针对多模态细粒度检索场景,在center loss函数的基础上提出multi-center loss函数,并引入类内中心来聚集同类别且同模态的样本,根据聚集类内中心来间接聚集同类别但模态不同的样本,同时消减样本间的异构鸿沟及语义鸿沟,增强模型对高维空间向量的聚类能力。在公开数据集FG-Xmedia上进行一对一与一对多的模态检索实验,结果表明,与FGCrossNet方法相比,MS2Net方法 mAP指标分别提升65%和48%。相似文献

3.

基于稀疏编码的多模态信息交叉检索

下载免费PDF全文

刘菲刘学亮《中国图象图形学报》2015,20(9):1170-1176

目的多模态信息交叉检索的根本问题是多模态数据的特征表示。稀疏编码是一种有效的数据特征表示方法,但是当查询数据和被检索数据来自不同模态时,数据间存在分布差异,相似的特征可能被编码为差异显著的稀疏表示,此时传统稀疏编码便不再适用。为此,提出了一种基于稀疏编码的多模态信息交叉检索算法。方法采用最大均值差异(MMD)以及图拉普拉斯,并将二者加入到稀疏编码的目标函数中来充分利用多模态信息进行编码,模型求解采用特征符号搜索和离散线搜索算法逐个更新稀疏编码系数。结果在Wikipedia的文本图像对数据上进行实验,并与传统稀疏编码进行比较,实验结果表明,本文算法使交叉检索的平均准确率(MAP)提高了18.7%。结论本文算法增强了稀疏表示的鲁棒性,提高了多模态交叉检索的准确率,更适用于对多模态数据进行特征提取,并进行进一步的操作,如交叉检索、分类等。相似文献

4.

基于深度学习的多模态生物特征融合模型

下载免费PDF全文

李卓容唐云祁《计算机工程与应用》2023,(7):180-189

面对公安实战中获取的低质量生物特征数据,单模态生物特征识别技术的精度并不理想,现有的多模态融合算法存在融合层次单一、泛化性不强等问题,深度神经网络的发展为其提供了有效的解决途径。构建基于深度神经网络的多模态生物特征融合模型,将像素层、特征层、分数层等不同层次的融合方法统一到融合模型中,在像素层采用空间、通道和强度融合三种策略;在特征层通过反向传播整体优化模态专用分支与联合表示层,构建模态之间一阶依赖关系;在分数层使用基于Rank1评价和基于模态评价两种方法完成匹配分数融合。模拟实战数据构建虚拟同源多模态数据集进行模型验证。实验结果表明,多模态像素层融合方法提升效果有限,难以增强数据的区分度;多模态特征层融合方法相比单模态算法提升2.2个百分点;分数层融合方法相比单模态算法提升3.5个百分点,最佳检索精度可达99.6%。基于深度学习方法提出的多模态生物特征融合模型极大地提高了模型的泛化性和检索精度。相似文献

5.

基于细粒度特征融合的部分多模态哈希

殷崭祚李博涵王萌黄瑞龙吴文隆王昊奋《软件学报》2024,35(3):1074-1089

多模态数据的指数级增长使得传统数据库在存储和检索方面遇到挑战,而多模态哈希通过融合多模态特征并映射成二进制哈希码,能够有效地降低数据库的存储开销并提高其检索效率.虽然目前已经有许多针对多模态哈希的工作取得了较好的效果,但是仍然存在着3个重要问题:(1)已有方法偏向于考虑所有样本都是模态完整的,然而在实际检索场景中,样本缺失部分模态的情况依然存在;(2)大多数方法都是基于浅层学习模型,这不可避免地限制了模型的学习能力,从而影响最终的检索效果;(3)针对模型学习能力弱的问题已提出了基于深度学习框架的方法,但是它们在提取各个模态的特征后直接采用了向量拼接等粗粒度特征融合方法,未能有效地捕获深层语义信息,从而弱化了哈希码的表示能力并影响最终的检索效果.针对以上问题,提出了PMH-F3模型.该模型针对样本缺失部分模态的情况,实现了部分多模态哈希.同时,基于深层网络架构,利用Transformer编码器,以自注意力方式捕获深层语义信息,并实现细粒度的多模态特征融合.基于MIRFlickr和MSCOCO数据集进行了充分实验并取得了最优的检索效果.实验结果表明:所提出的PMH-F³ 相似文献

6.

多模态数据融合综述

下载免费PDF全文

任泽裕王振超柯尊旺李哲吾守尔·斯拉木《计算机工程与应用》2021,57(18):49-64

随着当今信息技术的飞速发展,信息的存在形式多种多样,来源也十分广泛。不同的存在形式或信息来源均可被称之为一种模态,由两种或两种以上模态组成的数据称之为多模态数据。多模态数据融合负责将多个模态的信息进行有效的整合,汲取不同模态的优点,完成对信息的整合。自然现象具有十分丰富的特征,单一模态很难提供某个现象的完整信息。面对保持融合后具有各个模态信息的多样性以及完整性、使各个模态的优点最大化、减少融合过程造成的信息损失等方面的融合要求,如何对各个模态的信息进行融合成为了多个领域广泛存在的一个新挑战。简要阐述了常见的多模态融合方法、融合架构,总结了三个常见的融合模型,简要分析协同、联合、编解码器三大架构的优缺点以及多核学习、图像模型等具体融合方法。在多模态的应用方面,对多模态视频片段检索、综合多模态信息生成内容摘要、多模态情感分析、多模态人机对话系统进行了分析与总结。指出了当前多模态融合出现的问题,并提出未来的研究方向。相似文献

7.

多媒体交叉参照检索系统研究 总被引：4，自引：0，他引：4

庄越挺吴聪苗吴飞刘翔《计算机辅助设计与图形学学报》2005,17(4):834-839

描述并实现了一个面向数字图书馆的多媒体交叉参照检索系统．该系统将对多模态数据的检索无缝地融合到一个系统中,基于交叉参照图模型,多模态交叉参照搜索引擎综合计算媒体对象与查询之间在语义和内容层上的相似度;系统还支持用户相关反馈调整交叉参照图模型．实验结果表明,该系统能够比较有效地进行多模态交叉参照检索．相似文献

8.

一种多模态信息融合的视频检索模型

张静俞辉《计算机应用》2008,28(1):199-201,

针对包含复杂语义信息的视频检索的需要,提出了一种基于关系代数的多模态信息融合视频检索模型,该模型充分利用视频包含的文本、图像、高层语义概念等多模态特征,构造了对应于多个视频特征的查询模块,并创新地使用关系代数表达式对查询得到的多模态信息进行融合。实验表明,该模型能够充分发挥多模型视频检索及基于关系代数表达式的融合策略在复杂语义视频检索中的优势,得到较好的查询结果。相似文献

9.

多模态深度学习综述

刘建伟丁熙浩罗雄麟《计算机应用研究》2020,37(6):1601-1614

在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。相似文献

10.

用于多模态语义分析的嵌入共识自动编码器

孙圣姿郭炳晖杨小博《计算机科学》2021,48(7):93-98

跨模态检索技术是一项近年来的研究热点.多模态数据具有异质性,而不同形式的信息之间又有着相似性.传统的单模态方法只能以一种方式重构原始数据,并未考虑到不同数据之间的语义相似性,不能进行有效的检索.因此,文中建立了一个跨模态嵌入共识自动编码器(Cross-Modal Semantic Autoencoder with Embedding Consensus,ECA-CMSA),将原始数据映射到低维共识空间以保留语义信息,学习出对应的语义代码向量,并引入参数来实现去噪.然后,考虑到各模态之间的相似性,采用自动编码器将特征投影关联到语义代码向量.此外,对低维矩阵进行正则化稀疏约束,以平衡重构误差.在4个多模态数据集上验证所提方法的性能,实验结果证明其查询结果有所提升,实现了有效的跨模态检索.进一步,ECA-CMSA还可以应用于与计算机和网络有关的领域,如深度学习和子空间学习.该模型突破了传统方法中的障碍,创新地使用深度学习方法将多模态数据转换为抽象的表达,使其可以获得更好的准确度和识别结果. 相似文献

11.

多模态知识图谱构建与应用研究综述

陈烨周刚卢记仓《计算机应用研究》2021,38(12):3535-3543

为了总结前人工作,给相关研究者提供思路,首先讨论了当前多模态知识图谱的基本概念,然后从图数据库和知识图谱这两个角度介绍了多模态知识图谱的构建工作,并总结了两种主要方法的思路.还分析了多模态知识图谱的构建和应用中的关键技术和相关工作,如多模态信息提取、表示学习和实体链接.此外,列举了多模态知识图谱在四种场景中的应用,包括推荐系统、跨模态检索、人机交互和跨模态数据管理.最后,从四个方面展望了多模态知识图谱的发展前景. 相似文献

12.

Inference and retrieval of facial images

J. K. Wu Y. H. Ang P. Lam H. H. Loh A. Desai Narasimhalu 《Multimedia Systems》1994,2(1):1-14

Attempts have been made to extend SQL to work with multimedia databases. We are reserved on the representation ability of extended SQL to cope with the richness in content of multimedia data. In this paper we present an example of a multimedia database system, Computer Aided Facial Image Inference and Retrieval system (CAFIIR). The system stores and manages facial images and criminal records, providing necessary functions for crime identification. We would like to demonstrate some core techniques for multimedia database with CAFIIR system. Firstly, CAFIIR is a integrated system. Besides database management, there are image analysis, image composition, image aging, and report generation subsystems, providing means for problem solving. Secondly, the richness of multimedia data urges feature-based database for their management. CAFIIR is feature-based. A indexing mechanism,iconic index, has been proposed for indexing facial images using hierarchical self-organization neural network. The indexing method operates on complex feature measures and provides means for visual navigation. Thirdly, special retrieval methods for facial images have been developed, including visual browsing, similarity retrieval, free text retrieval and fuzzy retrieval. 相似文献

13.

基于语义学习的图像多模态检索 总被引：1，自引：0，他引：1

李志欣施智平陈宏朝吴璟莉《计算机工程》2013,39(3):258-263

针对语义鸿沟问题,在语义学习的基础上设计图像的多模态检索系统。该系统结合3种查询方式进行图像检索。基于视觉特征的查询通过特征提取与相似度匹配进行排位。基于标签的查询建立在图像自动标注的基础上,但在语义空间之外的泛化能力较差。基于语义图例的查询能够在很大程度上克服这个缺陷,通过在显式或隐式的语义空间上进行查询,使检索结果更符合人类感知。实验结果表明,与基于纹理特征的图像检索相比,基于语义图例的检索具有更高的精度及召回率。相似文献

14.

基于Flink的海量医学图像检索系统设计与实现

下载免费PDF全文

毛亚青王亮胡俊峰《计算机测量与控制》2020,28(9):212-217

医学图像检索是有效利用医学资源的基础，而医学图像的海量性和增量性为图像检索带来了新的挑战和要求。为了提高医学图像检索过程的效率，设计并实现一种基于Flink的海量医学图像检索系统。首先，系统通过Web应用作为用户操作入口，在后端搭建数据平台和业务集群；其次，系统通过HBase对医学图像数据进行分布式存储，利用深度卷积神经网络模型提取医学图像特征；然后，将所提取的医学图像特征数据进行乘积量化编码，并通过HBase进行存储；最后，通过基于Flink的内存计算对接Kafka进行实时图像检索，以及对批量导入图像的特征索引编码。系统在4个节点的服务器上部署分布式集群，使用真实医学图像数据集进行测试，通过在MapReduce和Spark两种不同技术模块下的对比实验表明本系统具有更好的检索效率表现。相似文献

15.

基于多模态融合的三维模型检索算法研究

王亚郑博文张欣《计算机应用研究》2021,38(3):685-688,695

为了获得更好的三维模型检索分类性能,基于深度学习模型研究了多模态信息融合对三维模型的特征描述,在训练步骤提出相关性损失函数来指导不同模态之间的训练,提取更稳健的特征向量;最后将融合特征应用于三维模型的检索和分类,在ModelNet40数据集上进行了三维模型分类任务和检索任务评估。实验结果及与现有方法进行的对比证明了该方法的优越性,为三维模型检索分类领域提供了一种新的思路。相似文献

16.

M2+-树:一种支持医学病例多度量空间检索的高效索引

于亚新王国仁林利增李淼朱歆华《计算机研究与发展》2010,47(4)

由于从病例库中进行病例的相似性检索关系到能否提供给医生充分且正确的候选病例,因此如何高效、准确地实现影像病例的相似性检索是学术界和医学界的研究热点之一.迄今为止,很多文献提出了用于提高查询精度的检索策略,但涉及检索效率的文章还为之甚少.基于此,提出了一种融多种度量空间相似性计算于一体的M2+-树高维索引技术.该索引将病例中的文本和影像合成一个高维多特征向量,该向量在度量空间上将数据空间划分成若干子空间,并借助关键向量对划分后的数据子空间再进行向量空间上的二次划分.关键向量的无重叠划分和三角不等式过滤原理可以加快病例的检索速度.总之,在度量和向量空间上的两次数据划分使得M2+-索引树大大减少了待查询病例与数据库病例间的不必要相似性计算的次数,从而加快了相似性病例的检索速度.实验结果表明,M2+-树的性能优于典型的度量空间多特征索引代表M2-树的性能. 相似文献

17.

基于深度学习的跨模态检索综述

下载免费PDF全文

尹奇跃黄岩张俊格吴书王亮《中国图象图形学报》2021,26(6):1368-1388

由于多模态数据的快速增长,跨模态检索受到了研究者的广泛关注,其将一种模态的数据作为查询条件检索其他模态的数据,如用户可以用文本检索图像或/和视频。由于查询及其检索结果模态表征的差异,如何度量不同模态之间的相似性是跨模态检索的主要挑战。随着深度学习技术的推广及其在计算机视觉、自然语言处理等领域的显著成果,研究者提出了一系列以深度学习为基础的跨模态检索方法,极大缓解了不同模态间相似性度量的挑战,本文称之为深度跨模态检索。本文从以下角度综述有代表性的深度跨模态检索论文,基于所提供的跨模态信息将这些方法分为3类：基于跨模态数据间一一对应的、基于跨模态数据间相似度的以及基于跨模态数据语义标注的深度跨模态检索。一般来说,上述3类方法提供的跨模态信息呈现递增趋势,且提供学习的信息越多,跨模态检索性能越优。在上述不同类别下,涵盖了7类主流技术,即典型相关分析、一一对应关系保持、度量学习、似然分析、学习排序、语义预测以及对抗学习。不同类别下包含部分关键技术,本文将具体阐述其中有代表性的方法。同时对比提供不同跨模态数据信息下不同技术的区别,以阐述在提供了不同层次的跨模态数据信息下相关技术的关注点与使用异同。为评估不同的跨模态检索方法,总结了部分代表性的跨模态检索数据库。最后讨论了当前深度跨模态检索待解决的问题以及未来的研究方向。相似文献

18.

基于卷积神经网络的多模态视频场景分割优化算法

黄清丰洪才刘立《计算机应用研究》2022,39(5):1595-1600

针对基于内容的视频检索中场景分割效率有待提高的问题,提出了一种基于卷积神经网络提取特征的多模态视频场景分割优化算法。首先利用改进的VGG19网络从视频镜头中提取多种模态的底层特征和语义特征,再将这些特征组成向量,然后通过三重损失学习与镜头相似度计算等方法,使场景分割问题转换为对镜头边界的二分类问题,最后建立评分机制优化所得结果,获取分割好的视频场景及对应的场景边界,完成场景分割任务。实验结果表明,该算法能对视频场景进行有效分割,整体查全率与查准率分别能达到85.77%、87.01%。相似文献