首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
王锦阳  华光  黄双 《信号处理》2022,38(9):1975-1987
近年来深度伪造(Deepfake)技术的迅猛发展使合成语音的自然度和拟人度有了显著提升,对合成语音检测研究提出了更大挑战。本文将五种轻量级注意力模块中的机制改进为适用于语音序列的通道注意力机制和一维空间注意力机制,然后将模块分别嵌入到Inc-TSSDNet网络中,提出基于注意力机制的端到端合成语音检测系统。结果表明,改进系统能够重点关注某些对于检测真伪更关键的通道或区域来提高检测性能,相比于基线模型,引入注意力机制的十种模型在增加的参数量较少的情况下,ASVspoof2019测试集的等错误率(Equal Error Rate,EER)和最小串联检测代价函数(Minimum Tandem Detection Cost Function,min t-DCF)都有所降低,其中在池化层之前嵌入CBAM(Convolutional Block Attention Module)的模型测试集EER最低且具有较强的泛化性,在池化层之前嵌入ECA(Efficient Channel Attention)模块的模型测试集min t-DCF最低且统计性能较基线模型有显著提升。  相似文献   

2.
提出一种端到端的视听语音识别算法。在该算法中,通过具有瓶颈结构的深度信念网络(deep belief network,DBN)中引入混合的l1/2范数和l1范数构建一种稀疏DBN(sparse DBN,SDBN)来提取稀疏瓶颈特征,从而实现对数据的特征降维,然后用双向长短期记忆网络(bidirectional long short-term memory,BLSTM)在时序上对特征进行模态处理,之后利用一种注意力机制将经过模态处理的唇部视觉信息和音频听觉信息进行自动对齐、融合,最后将融合的视听觉信息通过一个附加了Softmax层的BLSTM进行分类识别。实验表明,该算法能有效地识别视听觉信息,在同类算法中有很好的识别率和顽健性。  相似文献   

3.
Conformer模型因其优越的性能,吸引了越来越多研究者的关注,逐渐成为语音识别领域的主流模型,但因其采用注意力机制从输入中提取信息,需要对输入序列中所有样本点进行交互计算,导致网络计算复杂度为输入序列长度的平方,因此在对长语音进行识别时需要消耗更多计算资源,其识别速度较慢。针对此问题,本文提出一种线性注意力机制的语音识别方法。首先,提出一种新型门控线性注意力结构将多头注意力改进为单头,将注意力计算复杂度改进为序列长度的线性关系,以有效减少注意力计算复杂度。其次,为了弥补使用线性注意力导致的模型建模能力下降,在线性注意力求解过程中,综合使用局部注意力和全局注意力,联合线性注意力编码,提高模型识别精度。最后,为了进一步提升模型识别效果,在注意力损失和连接时序分类(connectionist temporal classification, CTC)损失的基础上使用注意力引导损失和中间CTC损失融合建模目标函数。在中文普通话数据集AISHELL-1和英文LibriSpeech数据集上的实验结果表明,改进模型的性能明显优于基线模型,且模型显存消耗下降,训练、识别速度得到较大提升。  相似文献   

4.
基于先验框设计(anchor-based)的多类目标检测算法存在超参数多、泛化能力差、正负样本不平衡的问题.针对这些问题,提出一种基于改进无锚(anchor-free)方法的目标检测算法.首先,针对传统算法在多类目标检测任务中难以获得鲁棒的特征表达的问题,构建基于上下文结合的自校准双重注意力模块,通过混合空洞卷积组获取...  相似文献   

5.
SAR图像中舰船目标稀疏分布、锚框的设计,对现有基于锚框的SAR图像目标检测方法的精度和泛化性有较大影响,因此该文提出一种上下文信息融合与分支交互的SAR图像舰船目标无锚框检测方法,命名为CI-Net。考虑到SAR图中舰船尺度的多样性,在特征提取阶段设计上下文融合模块,以自底向上的方式融合高低层信息,结合目标上下文信息,细化提取到的待检测特征;其次,针对复杂场景中目标定位准确性不足的问题,提出分支交互模块,在检测阶段利用分类分支优化回归分支的检测框,改善目标定位框的精准性,同时将新增的IOU分支作用于分类分支,提高检测网络分类置信度,抑制低质量的检测框。实验结果表明:在公开的SSDD和SAR-Ship-Dataset数据集上,该文方法均取得了较好的检测效果,平均精度(AP)分别达到92.56%和88.32%,与其他SAR图舰船检测方法相比,该文方法不仅在精度上表现优异,在摒弃了与锚框有关的复杂计算后,较快的检测速度,对SAR图像实时目标检测也有一定的现实意义。  相似文献   

6.
王国彬 《移动信息》2023,45(10):152-154
目标检测作为计算机视觉领域的重要研究分支,受到了广泛关注。目前,特征融合已成为提高目标检测准确率的重要方法,基于特征金字塔网络(FPN)的特征融合方法结合了多维度感受野来弥补信息丢失的思想,改进了FPN,并取得了良好的效果。在众多以FPN为基础结构的特征金字塔模型中,BiFPN既包含了级联信息传递,也包含了跨层特征融合,DyFPN包含了多感受野Inception模块,也包含了动态门机制。受BiFPN和DyFPN的启发,文中提出了一种新的基于FPN且包含注意力机制的特征金字塔网络结构——CAI-BiFPN。CAI-BiFPN沿用了Inception-FPN的思想,在BiFPN的基础上加入了Inception模块,并引入了通道注意力和SE模块。该结构应用了BiFPN的分支注意力与SE模块的通道注意力,将Inception模块放置于BiFPN第4层和第6层,SE模块则放置在BiFPN的第5层。通过一系列简单的改进,相较于BiFPN,CAI-BiFPN的APsAPl提升了0.7个百分点,AP从31.0%提升到31.3%,提升了0.3个百分点。  相似文献   

7.
为了提高监控场景中行人检测的准确度,提出了一种基于上下文信息的行人检测方法.该方法将监控场景的上下文信息融入到卷积神经网络中,选择性地学习对行人检测有帮助的上下文信息.首先,利用一个截断的卷积神经网络提取输入图像的多张特征图.然后,将多张特征图通过两个包含上下文信息的卷积层,形成一张掩码图.最后,通过在掩码图上估计行人的边界框,获得行人检测的结果.实验表明,该方法能实现监控场景中准确且快速的行人检测.  相似文献   

8.
马振  张雄伟  杨吉斌 《信号处理》2013,29(4):513-519
本文在深入研究语音个人特征信息有效表示的基础上,从信息分离角度,提出一种新的利用个人特征信息分离和替换实现语音转换的方法。该方法主要利用语音的稀疏性和K -均值奇异值分解(K-SVD)来实现。由于这种基于K-SVD的字典训练方法可以较好地保存语音信号中的个人特征信息,因此可以利用K-SVD的字典训练方法把语音个人特征信息进行分离并替换,再和语言内容等信息重构出目标语音。相对于传统方法,本方法能够更好地利用语音的稀疏性保存语音个人特征信息,从而可以克服参数映射带来的转换后语音个人特征相似度不高和语音质量下降的问题。实验仿真及主观评价结果表明,与基于高斯混合模型、人工神经网络的语音转换方法相比,该方法具有更好的转换语音质量和转换相似度以及抗噪性。   相似文献   

9.
杨咏剑  冀峰 《无线电工程》2011,41(10):24-26
针对高强度噪声背景下活动话音无法准确检测的问题,提出了基于多特征的语音活动检测算法,详细论述了该算法中语音信号的采样量化、预加重、分帧和加窗等预处理技术,分析了检测算法设计中的动态门限更新、短暂停顿平滑等关键因素,并总结出了多特征语音活动检测算法的流程图。通过基于硬件平台的算法测试和仿真分析,结果验证了该算法的合理性和有效性,对于复杂背景噪声环境下的活动话音检测有着重要的实用意义。  相似文献   

10.
语音识别技术已经成为信息技术中人机交互的关键技术,目前已经进入家电、汽车电子、消费电子产品等各个领域。本文简单介绍了语音识别技术的基本原理以及目前应用最广泛的两种端到端语音识别架构。  相似文献   

11.
本文提出了一种场景文本检测方法,用于应对复杂自然场景中文本检测的挑战。该方法采用了双重注意力和多尺度特征融合的策略,通过双重注意力融合机制增强了文本特征通道之间的关联性,提升了整体检测性能。在考虑到深层特征图上下采样可能引发的语义信息损失的基础上,提出了空洞卷积多尺度特征融合金字塔(dilated convolution multi-scale feature fusion pyramid structure, MFPN),它采用双融合机制来增强语义特征,有助于加强语义特征,克服尺度变化的影响。针对不同密度信息融合引发的语义冲突和多尺度特征表达受限问题,创新性地引入了多尺度特征融合模块(multi-scale feature fusion module, MFFM)。此外,针对容易被冲突信息掩盖的小文本问题,引入了特征细化模块(feature refinement module, FRM)。实验表明,本文的方法对复杂场景中文本检测有效,其F值在CTW1500、ICDAR2015和Total-Text 3个数据集上分别达到了85.6%、87.1%和86.3%。  相似文献   

12.
针对自然场景中任意形状文本容易漏检、错检的问题,提出了一种基于双重注意力融合和空洞残差特征增强的场景文本检测方法.为了增强文本特征通道之间的潜在联系,提出了双重注意力融合(DAF)模块,采用双向特征金字塔与双重注意力融合模块相结合的方式进行多层的特征融合;另外针对深层特征图在降维的过程中可能造成语义丢失的现象,提出了空...  相似文献   

13.
针对多方向排列的文本因其尺度变化大、复杂背景干扰而导致检测效果仍不甚理想的问题,本文提出了一种基于注意力机制的多方向文本检测方法。首先,考虑到自然场景下干扰信息多,构建文本特征提取网络(text feature information ResNet50,TF-ResNet),对图像中的文本特征信息进行提取;其次,在特征融合模型中加入文本注意模块(text attention module, TAM),抑制无关信息的同时突出显示文本信息,以增强文本特征之间的潜在联系;最后,采用渐进扩展模块,逐步融合扩展前部分得到的多个不同尺度的分割结果,以获得精确检测结果。本文方法在数据集CTW1500、ICDAR2015上进行实验验证和分析,其F值分别达到80.4%和83.0%,比次优方法分别提升了2.0%和2.4%,表明该方法在多方向文本检测上与其他方法相比具备一定的竞争力。  相似文献   

14.
自动驾驶中传感器融合是感知系统的重要组成部分,雷达点云信息和视觉信息融合可以提高车辆的感知能力。然而现有的研究将雷达点投影到图像上时只是对雷达点简单的增加高度,无法提供更加准确的横向信息,缺乏空间信息。同时对两个模态只是进行简单的融合,虽然产生了一个联合表征,但不足以充分捕捉两种模态之间的复杂联系。文中同时增加了雷达点云的宽度来进行空间信息增强,另外设计了一种利用差异性特征注意力融合的方法,使两个模态进行跨模态交互融合。本文在具有挑战性的nuScenes数据集上对模型进行了评估,提出的模型的NDS评分和mAP分别达到了46.3%和33.9%,体现了优秀的性能。  相似文献   

15.
刘亚灵  郭敏  马苗 《光电子.激光》2021,32(12):1271-1277
针对声音事件检测中仅在时频维度使用注意力机制的局限性以及卷积层单一导致的特征提取不足问题,本文提出基于多尺度注意力特征融合的卷积循环神经网络(convolutional recurrent neural network,CRNN)模型,以提高声音事件检测性能.首先,提出多尺度注意力模块,实现对局部时频单元和全局通道特征...  相似文献   

16.
针对复杂道路场景下行人检测精度与速度难以提升的问题,提出一种融合多尺度信息和跨维特征引导的轻量级行人检测算法。首先以高性能检测器YOLOX为基础框架,构建多尺度轻量卷积并嵌入主干网络中,以获取多尺度特征信息。然后设计了一种端到端的轻量特征引导注意力模块,采用跨维通道加权的方式将空间信息与通道信息融合,引导模型关注行人的可视区域。最后为减少模型在轻量化过程中特征信息的损失,使用增大感受野的深度可分离卷积构建特征融合网络。实验结果表明,相比于其他主流检测算法,所提算法在KITTI数据集上达到了71.03%的检测精度和80 FPS的检测速度,在背景复杂、密集遮挡、尺度不一等场景中都具有较好的鲁棒性和实时性。  相似文献   

17.
遥感图像的检测在监察自然环境、军事、国土安全等方面具有极其广阔的应用前景,而遥感图像具有背景复杂、目标面积小、特征提取困难等缺点,进行检测时容易产生小目标漏检问题。本文提出一种基于多尺度特征选择性融合的遥感图像检测算法。所提算法采用改进的Resnet50作为主干网络,将Resnet50第一个卷积替换成动态卷积,并将其ConvBlock模块中的卷积替换成金字塔卷积,提高特征提取能力。同时,为了避免遗漏底层信息,在动态卷积层后加入所提有效空间通道注意力机制模块。最后,选取基于上下文信息的不同尺度特征进行融合,提高了模型对目标物体的定位能力。实验结果表明,本文算法在保证速度的同时提高了对遥感图像的检测精度,在遥感图像公开数据集RSOD和NWPUVHR-10上平均精度均值(mean average precision,mAP)分别达到91.88%和90.23%,检测速度达到33 FPS。  相似文献   

18.
在动作识别任务中,如何充分学习和利用视频的空间特征和时序特征的相关性,对最终识别结果尤为重要。针对传统动作识别方法忽略时空特征相关性及细小特征,导致识别精度下降的问题,本文提出了一种基于卷积门控循环单元(convolutional GRU, ConvGRU)和注意力特征融合(attentional feature fusion,AFF) 的人体动作识别方法。首先,使用Xception网络获取视频帧的空间特征提取网络,并引入时空激励(spatial-temporal excitation,STE) 模块和通道激励(channel excitation,CE) 模块,获取空间特征的同时加强时序动作的建模能力。此外,将传统的长短时记忆网络(long short term memory, LSTM)网络替换为ConvGRU网络,在提取时序特征的同时,利用卷积进一步挖掘视频帧的空间特征。最后,对输出分类器进行改进,引入基于改进的多尺度通道注意力的特征融合(MCAM-AFF)模块,加强对细小特征的识别能力,提升模型的准确率。实验结果表明:在UCF101数据集和HMDB51数据集上分别达到了95.66%和69.82%的识别准确率。该算法获取了更加完整的时空特征,与当前主流模型相比更具优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号