排序方式: 共有60条查询结果,搜索用时 256 毫秒
12.
基于多模态概念关联图的视频检索 总被引:1,自引:0,他引:1
为了有效地提高基于概念的视频检索的检索性能,提出一种新颖的基于多模态概念关联图的视频检索方法.首先通过分析查询与概念之间的组织关系得到网状关系模型描述,并基于该模型构建概念关联图;然后提出查询与概念的多模态映射结构,将多模态查询融入概念关联图,增强概念扩展的针对性;之后使用流形排序动态地扩展索引概念集;全局稳态后采用正交的概念融合方法计算视频索引值,用于视频检索.与多种典型的基于概念的视频检索方法相比,文中方法的平均检索精度增幅达14.6%~86.2%.此外,实验结果表明,该方法在实际的交互式视频检索系统中也具有良好的适用性. 相似文献
13.
基于轨迹行为模式特征的视频拷贝检测算法 总被引:1,自引:0,他引:1
为了有效地利用视频的时域运动信息来提高视频拷贝检测的精度和鲁棒性,提出一种基于特征点轨迹行为模式的拷贝检测算法.首先从视频连续帧中提取特征点轨迹的行为模式特征,然后采用视觉关键词典技术构造视频的运动特征,最后基于运动特征的相似度进行视频拷贝检测.该算法在TRECVID标准数据集上取得了较高的检测精度.实验分析表明,基于轨迹的运动特征具有较强的描述区分能力,对各种常见的拷贝变化具有鲁棒性. 相似文献
14.
基于空间上下文的目标图像检索 总被引:7,自引:4,他引:3
提出了一种空间上下文描述与匹配方法,有效地提高了基于视觉性.首先通过定义具有仿射协变性的空间邻域,得到自适应的多层空间上下文描述;然后提出模糊堆土机距离度量方法计算空间上下文相似性,以减少区块特征聚类错误对空间关系匹配的影响.在预处理阶段,基于熵值和自相似度进行噪声区块过滤.与已有方法相比,该方法的平均检索精度相对提高了10.8%. 相似文献
15.
目的 场景文本检测是场景理解和文字识别领域的重要任务之一,尽管基于深度学习的算法显著提升了检测精度,但现有的方法由于对文字局部语义和文字实例间的全局语义的提取能力不足,导致缺乏文字多层语义的建模,从而检测精度不理想。针对此问题,提出了一种层级语义融合的场景文本检测算法。方法 该方法包括基于文本片段的局部语义理解模块和基于文本实例的全局语义理解模块,以分别引导网络关注文字局部和文字实例间的多层级语义信息。首先,基于文本片段的局部语义理解模块根据相对位置将文本划分为多个片段,在细粒度优化目标的监督下增强网络对局部语义的感知能力。然后,基于文本实例的全局语义理解模块利用文本片段粗分割结果过滤背景区域并提取可靠的文字区域特征,进而通过注意力机制自适应地捕获任意形状文本的全局语义信息并得到最终分割结果。此外,为了降低边界区域的预测噪声对层级语义信息聚合的干扰,提出边界感知损失函数以降低边界区域特征的歧义性。结果 算法在3个常用的场景文字检测数据集上实验并与其他算法进行了比较,所提方法在性能上获得了显著提升,在Totoal-Text数据集上,F值为87.0%,相比其他模型提升了1.0%;在MSRA-TD500(MSRA text detection 500 database)数据集上,F值为88.2%,相比其他模型提升了1.0%;在ICDAR 2015(International Conference on Document Analysis and Recognition)数据集上,F值为87.0%。结论 提出的模型通过分别构建不同层级下的语义上下文和对歧义特征额外的惩罚解决了层级语义提取不充分的问题,获得了更高的检测精度。 相似文献
16.
一种基于密度的自适应最优LDA模型选择方法 总被引:13,自引:0,他引:13
主题模型(topic models)被广泛应用在信息分类和检索领域.这些模型通过参数估计从文本集合中提取一个低维的多项式分布集合,用于捕获词之间的相关信息,称为主题(topic).针对模型参数学习过程对主题数目的指定和主题分布初始值非常敏感的问题,作者用图的形式阐述了LDA(Latent Dirichlet Allocation)模型中主题产生的过程,提出并证明当主题之间的相似度最小时模型最优的理论;基于该理论,提出了一种基于密度的自适应最优LDA模型选择方法.实验证明该方法可以在不需要人工调试主题数目的情况下,用相对少的迭代,自动找到最优的主题结构. 相似文献
17.
图像检索中一种有效的SVM相关反馈算法 总被引:5,自引:0,他引:5
提出受限随机选择方法.首先对图像进行相似性排序;然后使用一个阈值限定随机选择的范围;最后在该范围内进行划分,在子范围内通过随机选择来扩大训练样本,较好地解决了小样本问题.另外,动态计算多个SVM分类器的权值,融合分类结果,较好地解决了相关反馈过程中用户的不同喜好问题.实验结果表明了该方法的有效性. 相似文献
18.
H.264是最新的国际视频编码标准,它能够提供更高的编码效率,但其编码实现也非常复杂,三叉树结构的多编码模式和多帧参考技术是复杂度增加的两个重要因素.针对这两个因素提出一种用于帧间编码的快速模式判决算法FIMDA,它利用编码过程中获得的模式、码率开销等编码信息来减少那些对编码性能影响不大的参考帧和模式的搜索过程,从而降低编码复杂度.实验结果表明,对常用的5帧参考,与全搜索相比,FIMDA可将编码复杂度降低平均85%以上,而PSNR下降仅在0.07dB左右. 相似文献
19.
基于视差补偿预测的立体视频图像压缩编码 总被引:1,自引:0,他引:1
本文介绍了立体视频编码方法,并对其关键技术-视差补偿预测技术进行深入研究.本文所提出的基于视差分割的视差补偿预测算法是建立在可变尺寸块匹配算法的基础上,充分利用视差信息实现对目标图像帧的有效分割,并采用相适应的视差向量编码方案.与传统算法相比,在相同预测精度下,明显降低了视差信息编码开销. 相似文献
20.
一种分像素运动补偿插值滤波方法及高效VLSI实现 总被引:7,自引:0,他引:7
现代视频编码标准普遍采用变换与运动补偿预测混合型编码架构,该架构对运动补偿预测后的残差图像和运动矢量等信息进行变换编码,运动补偿预测的准确度对编码性能有显著影响.由于实际对象的运动精度是任意小的,允许运动矢量具有“分像素”精度,可以有效地提高运动补偿预测准确度,为了得到“分像素”位置的像素值,需要参考其周围相邻的像素值进行插值滤波.文中提出了一种低空间复杂度1/4像素插值方法:两步四抽头插值法(Two Steps Four Taps Interpolation,TSFT),该方法与目前国际上最先进的视频编码标准H.264/AVC相比,可以降低11%的空间复杂度,计算复杂度和编码效率相当,已经被国内制定的编码标准AVS1.0采纳.另外,分像素插值是解码端主要的访存和计算瓶颈,文中给出了一个基于多级流水线结构的VLSI实现结构,可以降低访存带宽,同时提高插值器的运算速度,满足高清视频实时解码的需要. 相似文献