期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

董永峰苏海洋刘斌陶建华《信号处理》2021,37(5):885-892

近年来,情感识别成为了人机交互领域的研究热点问题,而多模态维度情感识别能够检测出细微情感变化,得到了越来越多的关注多模态维度情感识别中需要考虑如何进行不同模态情感信息的有效融合。针对特征层融合存在有效特征提取和模态同步的问题、决策层融合存在不同模态特征信息的关联问题,本文采用模型层融合策略,提出了基于多头注意力机制的多模态维度情感识别方法,分别构建音频模型、视频模型和多模态融合模型对信息流进行深层特征学习,最后放入双向长短时网络中得到最终情感预测值。所提方法相比于不同基线方法在激活度和愉悦度上均取得了最佳的性能,可以在高层维度对情感信息有效捕捉,进而更好的对音视频信息进行有效融合。相似文献

2.

基于自编码器与多模态数据融合的视频推荐方法

顾秋阳琚春华吴功兴《电信科学》2021,37(2):82-98

现今常用的线性结构视频推荐方法存在推荐结果非个性化、精度低等问题,故开发高精度的个性化视频推荐方法迫在眉睫。提出了一种基于自编码器与多模态数据融合的视频推荐方法,对文本和视觉两种数据模态进行视频推荐。具体来说,所提方法首先使用词袋和TF-IDF方法描述文本数据,然后将所得特征与从视觉数据中提取的深层卷积描述符进行融合,使每个视频文档都获得一个多模态描述符,并利用自编码器构造低维稀疏表示。本文使用3个真实数据集对所提模型进行了实验,结果表明,与单模态推荐方法相比,所提方法推荐性能明显提升,且所提视频推荐方法的性能优于基准方法。相似文献

3.

MEF融合HFF的戏剧视频关键情节自动提取

尚雪莲秦健勇《电视技术》2015,39(8):50-54

为了更好地从戏剧视频提取关键情节,提出了一种基于音乐情感特征(MEF)融合人脸特征(HFF)的自动提取方法.首先,利用基于音频指纹技术的二级音乐情感识别方法进行音频识别,并利用人脸特征进行视频识别;然后,利用音频和视频识别得到的各元素获取关键情节值,从而提取关键情节;最后,提出了一种量化评估方法评估关键情节提取方法的一致性.在四个戏剧视频上的评估实验验证了该方法的有效性及可靠性,相比其他几种较新的提取模型,该方法提取效果更好. 相似文献

4.

基于激光通信的视频信号传输速度预测方法

赵庭兵《激光杂志》2020,41(3):172-176

为了提高激光通信系统视频信号传输速度自动预测能力,提出一种基于小波分析和高阶谱特征提取的激光通信系统视频信号传输速度自动预测方法。采用一阶近似分布源视频检测方法进行激光通信系统视频传输信号的降噪处理,对降噪输出的视频传输信号进行特征分解和多维测度信息配准,结合小波多层重构方法进行激光通信视频信号的重组,提取视频传输信号的相干分布源特征,根据提取的激光通信视频信号的相干分布源特征进行自动匹配,实现对激光通信系统视频信号传输速度的自动预测。仿真结果表明,采用该方法进行激光通信系统视频信号传输速度自动预测的准确性较好,对激光通信视频信号的分辨能力较好,提高了激光通信系统的视频信号传输速度的预测性能。相似文献

5.

Study of emotion recognition based on fusion multi-modal bio-signal with SAE and LSTM recurrent neural network

You-jun LI Jia-jin HUANG Hai-yuan WANG Ning ZHONG 《通信学报》2017,38(12):109-120

In order to achieve more accurate emotion recognition accuracy from multi-modal bio-signal features,a novel method to extract and fuse the signal with the stacked auto-encoder and LSTM recurrent neural networks was proposed.The stacked auto-encoder neural network was used to compress and fuse the features.The deep LSTM recurrent neural network was employed to classify the emotion states.The results present that the fused multi-modal features provide more useful information than single-modal features.The deep LSTM recurrent neural network achieves more accurate emotion classification results than other method.The highest accuracy rate is 0.792 6 相似文献

6.

基于多模态特征融合监督的RGB-D图像显著性检测

刘政怡段群涛石松赵鹏《电子与信息学报》2020,42(4):997-1004

RGB-D图像显著性检测是在一组成对的RGB和Depth图中识别出视觉上最显著突出的目标区域。已有的双流网络,同等对待多模态的RGB和Depth图像数据,在提取特征方面几乎一致。然而,低层的Depth特征存在较大噪声,不能很好地表征图像特征。因此,该文提出一种多模态特征融合监督的RGB-D图像显著性检测网络,通过两个独立流分别学习RGB和Depth数据,使用双流侧边监督模块分别获取网络各层基于RGB和Depth特征的显著图,然后采用多模态特征融合模块来融合后3层RGB和Depth高维信息生成高层显著预测结果。网络从第1层至第5层逐步生成RGB和Depth各模态特征,然后从第5层到第3层,利用高层指导低层的方式产生多模态融合特征,接着从第2层到第1层,利用第3层产生的融合特征去逐步地优化前两层的RGB特征,最终输出既包含RGB低层信息又融合RGB-D高层多模态信息的显著图。在3个公开数据集上的实验表明,该文所提网络因为使用了双流侧边监督模块和多模态特征融合模块,其性能优于目前主流的RGB-D显著性检测模型,具有较强的鲁棒性。相似文献

7.

基于三维卷积和哈希方法的视频检索算法

陈汗青李菲菲陈虬《电子科技》2022,35(4):35-39

视频信息检索与其他多媒体检索的最大不同在于视频信息量较大,因此进行视频间相似度计算时的计算量较大。此外,对视频特征的提取中常常忽略视频帧之间的时间相关性,从而导致特征提取不充分,影响视频检索的精度。为此,文中提出基于三维卷积和哈希方法的视频检索方法。该方法构建了一个端到端的框架,使用三维卷积神经网络来提取视频中代表帧的特征,并将视频特征映射到低维的汉明空间中去,在汉明空间计算相似度。在两个视频数据集下的实验结果表明,相较于当前最新的视频检索算法,文中所提方法在精度上有较大的提升。相似文献

8.

A Graph-Based Object Description for Information Retrieval in Digital Image and Video Libraries

I. Burak zer Wayne Wolf Ali N. Akansu 《Journal of Visual Communication and Image Representation》2002,13(4):425

相似文献

9.

一种基于运动补偿三维小波的多描述视频编码方法 总被引：2，自引：0，他引：2

卓力王仕宝王素玉张菁《电子学报》2009,37(10):2154-2159

本文将多描述编码与运动补偿三维小波可扩展视频编码相结合,提出了一种基于运动补偿三维小波的多描述视频编码方法.该方法首先根据编码序列的运动特性,自适应地进行每个描述的码率分配,以控制各个描述中的冗余,然后将编码序列的关键信息-运动矢量和低频帧码流复制到两个描述中,并将高频帧码流分配到不同的描述中.在解码端根据正确接收信息的不同,采用不同的方法进行视频重建.实验结果表明,与单描述编码方法相比,在信道丢包率较高的情况下,本文方法可以提供更好的传输鲁棒性. 相似文献

10.

Automatic object extraction over multiscale edge field for multimedia retrieval.

Serkan Kiranyaz Miguel Ferreira Moncef Gabbouj 《IEEE transactions on image processing》2006,15(12):3759-3772

相似文献

11.

融入注意力机制的深度学习动作识别

张宇张雷《电讯技术》2021,61(10):1205-1212

针对现有的深度学习方法在人体动作识别中易出现过拟合、易受到干扰信息影响、特征表达能力不足的问题,提出了一种融入注意力机制的深度学习动作识别方法.该方法在数据预处理中提出了视频数据增强算法,降低了模型过拟合的风险,然后在视频帧采样过程中对现有的采样算法进行了改进,有效抑制了干扰信息的影响,并在特征提取部分提出了融入注意力的残差网络,提高了模型的特征提取能力;之后,利用长短时记忆(Long Short-Term Memory,LSTM)网络解决了空间特征的时序关联问题;最后,通过Softmax完成了相应动作的分类.实验结果表明,在UCF YouTube、KTH和HMDB-51数据集上,所提方法的识别率分别为96.72％、98.06％和64.81％. 相似文献

12.

基于多元经验模态分解的多元多尺度熵静态平衡能力评估

下载免费PDF全文

石鹏张启忠张华平席旭刚《电子学报》2020,48(4):670-674

提出了一种基于多元经验模态分解（Multivariate Empirical Mode Decomposition,MEMD）的多元多尺度熵（Multivarite Multiscale Entropy,MMSE）特征提取方法分析多模态信号,进行人体静态平衡能力评估.首先,采集人体多模态信号,采用多元经验模态分解对多通道信号进行自适应分解,得到一系列多元固有模态函数（Intrinsic Mode Functions,IMFs）,依据T检验和相关系数从中选取最佳的IMF分量进行信号重构;然后,采用多元多尺度熵算法提取特征,用K-均值与支持向量机对比本文特征提取方法与两种传统特征提取方法在处理人体静态平衡能力评估问题时分类效果,并分析两种分类器的人体静态平衡能力评估效果;最后,得出本文最优的特征为基于多元经验模态分解的多元多尺度熵特征,最优的分类方法为支持向量机. 相似文献

13.

Visual video evaluation association modeling based on chaotic pseudo-random multi-layer compressed sensing for visual privacy-protected keyframe extraction

《Journal of Visual Communication and Image Representation》2023

In current society, artificial intelligence processing technology offers convenient video monitoring, but also raises the risk of privacy leakage. Theoretically, the data used in intelligent video processing methods may directly convey visual information containing private content. For the above problem, this paper uses a multi-layer visual privacy-protected (VPP) coding method to blur private content in the video at the visual level, while avoiding the loss of important visual features contained in the video as much as possible. And this provides a guarantee of the quality of the subsequent keyframe extraction step. Then a visual evaluation algorithm is proposed for assessing the quality of VPP-encoded video privacy protection. And the experiment shows that the results are consistent with those of subjective evaluation. In addition, for VPP-encoded video, we propose an unsupervised two-layer clustering keyframe extraction method with corresponding performance evaluation index. Finally, an association model is established to balance the privacy protection quality and the keyframe extraction performance. 相似文献

14.

基于全局双线性注意力的红外视频行为识别

欧阳楠楠况立群谢剑斌韩慧妍曹亚明王飞《激光与红外》2024,54(3):431-439

针对红外视频缺少纹理细节特征以致在人体行为识别中难以兼顾计算复杂度与识别准确率的问题,提出一种基于全局双线性注意力的红外视频行为识别方法。为高效计算红外视频中的人体行为,设计基于两级检测网络的关节点提取模块来获得人体关节点信息,创新性地将所形成的关节点三维热图作为红外视频人体行为识别网络的输入特征;为了在轻量化计算的基础上进一步提升识别准确率,提出一种全局双线性注意力的三维卷积网络,从空间和通道两个维度提升注意力的建模能力,捕获全局结构信息。在InfAR和IITR IAR数据集上的实验结果表明,该方法在红外视频行为识别中的有效性。相似文献

15.

基于视觉显著计算的视频流媒体渐进式表达方法

下载免费PDF全文

梁永生柳伟周莺魏泽锋张基宏《电子学报》2017,45(7):1567-1575

为了有效解决视频流媒体传输网络带宽、播出视频质量和用户实时性访问之间的矛盾,本文提出了一种基于视觉显著计算的视频流媒体渐进式表达方法.在视频内容分析和理解的基础上,首先进行场景分类和视觉敏感区域提取;然后根据编码信息确定视频序列中各帧的重要性,估计帧内片层数据重要性;最后基于视觉显著计算的结果提出一种适应网络带宽和质量可伸缩的视频流媒体渐进式表达方法.采用中粒度质量可伸缩（MGS）编码,在模拟网络测试平台上分别针对集中式和分散式视觉敏感区域视频序列进行实验研究,实验结果验证了本文提出的基于视觉显著计算的视频流媒体渐进式表达方法的正确性和有效性. 相似文献

16.

基于多尺度特征残差学习卷积神经网络的视频超分辨率方法

下载免费PDF全文

林琦陈婧曾焕强朱建清蔡灿辉《信号处理》2020,36(1):50-57

本文提出了一种基于多尺度特征残差学习卷积神经网络的视频超分辨率方法,考虑到视频帧间的时空相关性,所提的方法采用由双三次插值预处理后的连续五帧视频作为卷积神经网络的输入,经由网络重建中间帧作为输出,依次按顺序重建直至获得整个高分辨率视频。本文所提出的卷积神经网络主要由多尺度特征提取、残差学习、亚像素卷积层、残差连接(skip-connection)四大部分组成,通过对视频的多尺度特征的提取获得更丰富的不同尺度特征和残差学习达到较好地恢复高频信息的目的。本文采用峰值信噪比（PSNR）和结构相似性指数（SSIM）作为损失函数优化网络。实验结果表明,本方法在平均评价指标上较其他方法均有一定的提升（PSNR +3.151dB,SSIM +0.102）,从主观评价上看可以有效地减少视频边缘模糊的现象。相似文献

17.

基于小波分解和1D-GoogLeNet的心律失常检测

杨淑莹桂彬彬陈胜勇《电子与信息学报》2021,43(10):3018-3027

心电图(ECG)信号的准确分类对于心脏病的自动诊断非常重要。为了实现对心律失常的智能分类,该文提出一种基于小波分解和1D-GoogLeNet的精确分类方法。在该方法中,利用Db6小波对ECG信号进行8级分解,得到既含时域信息又有频域信息的多维数据。随后,分解的样本用作1D-GoogLeNet的输入训练该模型。在提出的1D-GoogLeNet模型中,借鉴Inception在图像特征提取中的优异性能,将2维卷积变换为1维卷积学习ECG的特征,并且简化各个Inception的结构,降低模型参数。该文提出的神经网络分类器能够有效缓解计算效率低、收敛困难和模型退化的问题。在实验中,选用MIT-BIH心律失常数据集测试所提模型的性能,对比了信号的不同分解分量组合作为输入的检测结果,当输入数据由{d2-d7}组合时,所提1D-GoogLeNet模型可以达到96.58%的平均准确率。此外,还对比了该模型与未经结构优化的简单1维GoogLeNet在数据集上的表现,前者在准确率上比后者提高了4.7%,训练效率提高了118%。相似文献

18.

Mutual information-based feature extraction on the time-frequencyplane

Grall-Maes E. Beauseroy P. 《Signal Processing, IEEE Transactions on》2002,50(4):779-790

A method is proposed for automatic extraction of effective features for class separability. It applies to nonstationary processes described only by sample sets of stochastic signals. The extraction is based on time-frequency representations (TFRs) that are potentially suited to the characterization of nonstationarities. The features are defined by parameterized mappings applied to a TFR. These mappings select a region of the time-frequency plane by using a two-dimensional (2-D) parameterized weighting function and provide a standard characteristic in the restricted representation obtained. The features are automatically drawn from the TFR by tuning the weighting function parameters. The extraction is driven to maximize the information brought by the features about the class membership. It uses a mutual information criterion, based on estimated probability distributions. The framework is developed for the extraction of a single feature and extended to several features. A classification scheme adapted to the extracted features is proposed. Finally, some experimental results are given to demonstrate the efficacy of the method 相似文献

19.

基于改进GMM和多特征融合的视频火焰检测算法

张驰孟庆浩井涛《激光与光电子学进展》2021,58(4):128-137

针对现有视频图像火焰检测算法前景提取不完整、准确率低和误检率高等问题,提出一种基于改进混合高斯模型(GMM)和多特征融合的视频火焰检测算法。首先针对背景建模,提出了自适应高斯分布数和学习率的改进GMM方法,以提高前景提取效果和算法实时性;然后利用火焰颜色特征筛选出疑似火焰区域,再通过融合改进局部二值模式纹理和边缘相似度特征用于火焰检测。基于支持向量机设计火焰融合特征分类器并进行对比实验,在公开数据集上的实验结果表明,所提算法有效提高了背景建模效果,火焰检测准确率可达到92.26%,误检率低至2.43%。相似文献

20.

Content-adaptive parameters estimation for multi-dimensional rate control

《Journal of Visual Communication and Image Representation》2016

Multi-dimensional rate control schemes have been recently utilized to adapt video streams to dynamic network conditions and heterogeneous devices. However, current multi-dimensional rate control methods, which estimate the model coefficients using fixed update duration, usually yield inaccurate parameters for dynamically changing video content. To address this problem, a content-adaptive parameters estimation scheme is proposed for multi-dimensional rate control. Firstly, we propose to estimate the parameters using dynamical update duration based on video content and the update duration of the model coefficients is determined by jointly considering the varying picture complexity and feedback information from the actual encoding results, which can improve the model parameter estimation accuracy. Secondly, a coarse-to-fine initial parameter calculation method is proposed to refine the initial frame rate according to the channel condition and the video sequence characteristics. Extensive experimental results show that the proposed solutions outperform the state-of-the-art schemes, especially for video sequences with high temporal and spatial complexity. Furthermore, our algorithm also slightly reduces the computational complexity as compared to related algorithms. 相似文献