共查询到12条相似文献,搜索用时 53 毫秒
1.
目前大多数的视频语义概念提取研究没有考虑到视频多模态之间的关联共生特性,而在样本的标注方面采用自定义的概念进行标注,会影响语义概念提取的准确率。针对上述问题,提出结合Simfusion算法和用本体知识库标注样本的方法提取视频的语义概念,该方法根据镜头内容变化提取关键帧,在提取出镜头内容时,有效地利用镜头多模态之间的时序关联共生特性,同时运用本体知识库中的概念标注样本、训练分类器,弥补传统方法在标注样本时存在的主观、不规范等不足。实验结果表明,该方法在视频语义概念提取的研究中,有较高的准确度、可操作性强。 相似文献
2.
向云柱 《计算机与数字工程》2014,(2):296-299
为了能快速、有效地进行视频场景分割,论文提出一种基于镜头竞争力的多模态视频场景分割算法,充分考虑视频中多模态之间的时序关联共生特性,通过对视频物理特征的提取、融合计算出镜头间相似度,结合镜头竞争力的判定思想分割出视频场景.实验结果表明,该算法能较为高效地进行视频场景分割,查全率和查准率可达82.1%和86.7%. 相似文献
3.
4.
5.
随着在线视频应用的流行,互联网上的视频数量快速增长.面对互联网上海量的视频,人们对视频检索的要求也越来越精细化.如何按照合适的语义概念对视频进行组织和管理,从而帮助用户更高效、更准确地获取所需视频,成为亟待解决的问题.在大量的应用场景下,需要声音和视觉同时出现才能确定某个视频事件.因此,提出具有视听信息的多模态概念的检测工作.首先,以名词-动词二元组的形式定义多模态概念,其中名词表达了视觉信息,动词表达了听觉信息,且名词和动词具有语义相关性,共同表达语义概念所描述的事件.其次,利用卷积神经网络,以多模态概念的视听相关性为目标训练多模态联合网络,进行端到端的多模态概念检测.实验表明:在多模态概念检测任务上,通过视听相关的联合网络的性能超过了单独的视觉网络和听觉网络.同时,联合网络能够学习到精细化的特征表示,利用该网络提取的视觉特征,在Huawei视频数据集某些特定的类别上超过ImageNet预训练的神经网络特征;联合网络提取的音频特征,在ESC50数据集上,也超过在Youtube8m上训练的神经网络音频特征约5.7%. 相似文献
6.
林于翔;吴运兵;阴爱英;廖祥文 《计算机应用》2024,44(1):65-72
多模态生成式摘要往往采用序列到序列(Seq2Seq)框架,目标函数在字符级别优化模型,根据局部最优解生成单词,忽略了摘要样本全局语义信息,使得摘要与多模态信息产生语义偏差,容易造成事实性错误。针对上述问题,提出一种基于语义相关性分析的多模态摘要模型。首先,在Seq2Seq框架基础上对多模态摘要进行训练,生成语义多样性的候选摘要;其次,构建基于语义相关性分析的摘要评估器,从全局的角度学习候选摘要之间的语义差异性和真实评价指标ROUGE (Recall-Oriented Understudy for Gisting Evaluation)的排序模式,从而在摘要样本层面优化模型;最后,不依赖参考摘要,利用摘要评估器对候选摘要进行评价,使得选出的摘要与源文本在语义空间中尽可能相似。实验结果表明,在公开数据集MMSS上,相较于MPMSE (Multimodal Pointer-generator via Multimodal Selective Encoding)模型,所提模型在ROUGE-1、ROUGE-2、ROUGE-L评价指标上分别提升了3.17、1.21和2.24个百分点。 相似文献
7.
提出了一种基于高阶张量表示的视频语义分析与理解框架.在此框架中,视频镜头首先被表示成由视频中所包含的文本、视觉和听觉等多模态数据构成的三阶张量;其次,基于此三阶张量表达及视频的时序关联共生特性设计了一种子空间嵌入降维方法,称为张量镜头;由于直推式学习从已知样本出发能对特定的未知样本进行学习和识别.最后在这个框架中提出了一种基于张量镜头的直推式支持张量机算法,它不仅保持了张量镜头所在的流形空间的本征结构,而且能够将训练集合外数据直接映射到流形子空间,同时充分利用未标记样本改善分类器的学习性能.实验结果表明,该方法能够有效地进行视频镜头的语义概念检测. 相似文献
8.
9.
根据视频内容自动生成文本序列的密集描述生成融合了计算机视觉与自然语言处理技术。现有密集描述生成方法多强调视频中的视觉与运动信息而忽略了其中的音频信息,关注事件的局部信息或简单的事件级上下文信息而忽略了事件间的时序结构和语义关系。为此,该文提出一种基于多模态特征的视频密集描述生成方法。该方法首先在动作提议生成阶段使用Timeception层作为基础模块以更好适应动作片段时间跨度的多样性,其次在动作提议生成和描述生成两阶段均利用音频特征增强提议和描述生成效果,最后使用时序语义关系模块建模事件间的时序结构和语义信息以进一步增强描述生成的准确性。特别地,该文还构建了一个基于学习场景的视频密集描述数据集SDVC以探究该文所提方法在学习场景现实应用中的有效性。在ActivityNet Captions和SDVC数据集上的实验结果表明,动作提议生成AUC值分别提升0.8%和6.7%;使用真实动作提议进行描述生成时,BLEU_3值分别提升1.4%和4.7%,BLEU_4值分别提升0.9%和5.3%;使用生成的动作提议进行描述生成时,SDVC数据集BLEU_3、BLEU_4值分别提升2.3%和2.2%。 相似文献
10.
基于深度学习模型的多模态学习方法已在静态、可控等简单场景下取得较优的语义理解性能,但在动态、开放等复杂场景下的泛化性仍然较低.近期已有不少研究工作尝试将类人知识引入多模态语义理解方法中,并取得不错效果.为了更深入了解当前知识驱动的多模态语义理解研究进展,文中在对相关方法进行系统调研与分析的基础上,归纳总结关系型和对齐型这两类主要的多模态知识表示框架.然后选择多个代表性应用进行具体介绍,包括图文匹配、目标检测、语义分割、视觉-语言导航等.此外,文中总结当前相关方法的优缺点并展望未来可能的发展趋势. 相似文献
11.
12.
基于多模态概念关联图的视频检索 总被引:1,自引:0,他引:1
为了有效地提高基于概念的视频检索的检索性能,提出一种新颖的基于多模态概念关联图的视频检索方法.首先通过分析查询与概念之间的组织关系得到网状关系模型描述,并基于该模型构建概念关联图;然后提出查询与概念的多模态映射结构,将多模态查询融入概念关联图,增强概念扩展的针对性;之后使用流形排序动态地扩展索引概念集;全局稳态后采用正交的概念融合方法计算视频索引值,用于视频检索.与多种典型的基于概念的视频检索方法相比,文中方法的平均检索精度增幅达14.6%~86.2%.此外,实验结果表明,该方法在实际的交互式视频检索系统中也具有良好的适用性. 相似文献