首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 44 毫秒
1.
针对传统鸟声识别算法中特征提取方式单一、分类识别准确率低等问题,提出一种结合卷积神经网络和Transformer网络的鸟声识别方法。该方法综合考虑网络局部特征学习和全局上下文依赖性构造,从原始鸟声音频信号中提取短时傅里叶变换(Short Time Fourier Transform,STFT)语谱图特征,将其输入到卷积神经网络(ConvolutionalNeural Network,CNN)中提取局部频谱特征信息,同时提取鸟声信号的对数梅尔特征及一阶差分、二阶差分特征用于合成梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)混合特征向量,将其输入到Transformer网络中获取全局序列特征信息,最后融合所提取的特征可得到更丰富的鸟声特征参数,通过Softmax分类器得到鸟声识别结果。在Birdsdata和xeno-canto鸟声数据集上进行实验,平均识别准确率分别达到了97.81%和89.47%。实验结果表明该方法相较于其他现有的鸟声识别模型具有更高的识别准确率。  相似文献   

2.
针对面部表情识别的特征提取与选择问题,本文首先提取出表情的全局Gabor特征以及面部关键点作为局部特征,将局部特征分为嘴部、左眼、右眼三个特征块,然后运用Procrustes analysis对各个特征块中心化、旋转、缩放,降低位置、大小不一致等因素的影响,最后对全局Gabor特征和局部特征分别在不同的PCA保留率下处理,将两种特征融合。实验结果表明,不论是单独的局部特征还是融合特征,block Procrustes analysis均可以显著的提高表情识别的性能,包括提高面部表情识别准确率的稳定性以及提高表情识别正确率的最大值。  相似文献   

3.
肺结节的准确分割是后续良恶性分析和诊断的关键。由于基于卷积神经网络的分割模型受限于局部特征提取特性,忽略了全局特征。因此,本文提出了一种新的肺结节语义分割框架ST-UNet网络,将Swin transformer嵌入UNet中,构成一种新颖的Swin Transformer和CNN并行的双编码器结构。结果表明:该模型不仅对肺结节的分割具有较好的性能,而且对医生进行肺结节的早期诊断具有重要的临床意义和应用价值。  相似文献   

4.
道路场景语义分割是自动驾驶环境感知的一项重要任务。近年来,变换神经网络(Transformer)在计算机视觉领域开始应用并取得了很好的效果。针对复杂场景图像语义分割精度低、细小目标识别能力不足等问题,本文提出了一种基于移动窗口Transformer的多尺度特征融合的道路场景语义分割算法。该网络采用编码-解码结构,编码器使用改进后的移动窗口Transformer特征提取器对道路场景图像进行特征提取,解码器由注意力融合模块和特征金字塔网络构成,充分融合多尺度的语义特征。在Cityscapes城市道路场景数据集上进行验证测试,实验结果表明,与多种现有的语义分割算法进行对比,本文方法在分割精度方面有较大的提升。  相似文献   

5.
针对复杂工况下单传感器对于装备故障诊断识别率低、证据缺乏、数据冗余等问题,提出一种基于支持向量机(Support Vector Machine,SVM)结合D-S证据理论的多维度特征数据融合决策故障诊断方法。首先,通过多种方法提取特征构建SVM分类器,对故障类型进行初步分类;然后,将Sigmoid函数作为传递函数,利用SVM分类器对测试数据进行分类,获取测试样本的后验概率并得到测试样本的混淆矩阵;最后,根据混淆矩阵求出局部可信度与全局可信度,并与后验概率相结合实现基本概率分配函数赋值,通过融合计算得到最终诊断结果。实验结果表明,融合后的分类器模型对内圈故障类型分类准确率达100%,对正常和滚珠类型分类准确率为95%,对外圈故障分类准确率为90%。采取多特征融合诊断相较于单一方法有较高准确率和鲁棒性,可有效降低单一特征提取所带来的不稳定性。  相似文献   

6.
针对语音情感识别任务中特征提取单一、分类准确率低等问题,提出一种3D和1D多特征融合的情感识别方法,对特征提取算法进行改进。在3D网络,综合考虑空间特征学习和时间依赖性构造,利用双线性卷积神经网络(Bilinear Convolutional Neural Network,BCNN)提取空间特征,长短期记忆网络(Short-Term Memory Network,LSTM)和注意力(attention)机制提取显著的时间依赖特征。为降低说话者差异的影响,计算语音的对数梅尔特征(Log-Mel)和一阶差分、二阶差分特征合成3D Log-Mel特征集。在1D网络,利用一维卷积和LSTM的框架。最后3D和1D多特征融合得到判别性强的情感特征,利用softmax函数进行情感分类。在IEMOCAP和EMO-DB数据库上实验,平均识别率分别为61.22%和85.69%,同时与提取单一特征的3D和1D算法相比,多特征融合算法具有更好的识别性能。  相似文献   

7.
本文提出了一种基于下采样的特征融合遥感图像语义分割模型,该模型在编解码结构基础上,将高分辨率原始图像引入"下采样"模块提取低级语义特征,在此基础上,将输出的低级语义特征通过MobileNetV2和空间金字塔池化进一步提取多尺度高级语义细节特征,然后,将这些高级语义特征和直接从下采样模块提取的低级语义特征融合并进行特征图分割.最后,在"CCF卫星影像的AI分类与识别竞赛"的数据集上取得了93%的训练准确率以及91%的预测准确率.  相似文献   

8.
针对现有网络难以有效学习点云局部几何信息的问题,提出一种融合点云多分辨率特征的图卷积网络。首先,通过k-最近邻算法对点云构建局部图结构,以更好地表示点云的局部几何结构。其次,基于最远点采样算法提出一个并行通道分支,该分支通过对点云进行下采样来获得不同分辨率的点云,然后对其进行分组处理;为克服点云的稀疏特性,提出一种几何映射模块对分组点云执行正态化操作。最后,提出一种特征融合模块对图特征和多分辨率特征进行聚合,以更有效地获得全局特征。实验使用ModelNet40、ScanObjectNN和ShapeNet Part数据集进行评估,结果表明,提出的网络具有良好的分类与分割性能。  相似文献   

9.
针对滚动轴承原始数据集包含高维非敏感特征的问题,提出一种集成核主成分分析(Kernel Principal Component Analysis,KPCA)与 t?分布随机邻域嵌入(t?distributed Stochastic Neighbor Embedding,t?SNE)的滚动轴承故障低维敏感特征提取方法。该方法先计算滚动轴承原始振动信号的时域、频域以及时频域特征,构建初始高维特征数据集。利用 KPCA 降低高维数据集的相关性,在最大化高维数据全局特征方差的目标下,提取出非线性特征子集。通过 t?SNE 充分挖掘故障特征数据集的局部结构信息,进一步获取具有高判别性的低维敏感特征子集。将低维特征子集输入到 k?近邻分类器(k?nearest Neighbor Classifier,KNNC)进行分类,以分类准确率和聚类结果作为度量指标,对特征提取结果的优劣予以评价。上述过程综合考虑了数据集的全局和局部结构特征,充分利用了数据自身的结构信息,从而可准确提取其低维敏感特征。将该方法用于滚动轴承故障诊断实验中,通过与其他典型特征提取方法进行对比,及其对含噪情况下轴承故障特征的准确提取,验证了方法的有效性。  相似文献   

10.
孙刘杰  樊景星 《包装工程》2022,43(11):292-301
目的 人机交互信息在交互式图像分割过程中具有重要意义,为了提高交互信息的使用效率,文中提出一种优化方法。方法 提出一种非对称注意力结构,将交互信息通过该结构融合到交互式图像分割算法(IOG)的特征提取网络中。该算法能够进一步强化关键点信息对图像分割所起到的引导作用。结果 非对称注意力结构能够在不增加交互成本的条件下,在PASCAL数据集上达到92.2%的准确率,比目前最好的IOG分割算法提高了0.2%。仅在小样本PASCAL数据集上训练时,文中算法具有更明显的优势,比现有最好的IOG算法的准确率提高了1.3%。结论 通过中文的非对称注意力结构,能够在不增加交互成本的同时提升网络的分割精度。  相似文献   

11.
针对视网膜血管分割任务中存在的毛细血管分割遗漏和断连的问题,从最大限度地利用视网膜血管的特征信息的角度出发,添补视网膜血管的全局结构信息和边界信息,在U型网络的基础上,提出边界注意力辅助的动态图卷积视网膜血管分割网络。本模型先将动态图卷积嵌入到U型网络中形成多尺度结构,提升模型获取全局结构信息的能力,以提高分割质量,再利用边界注意力网络辅助模型,增加模型对边界信息的关注度,进一步提高分割性能。将模型在DRIVE、CHASEDB1和STARE三个视网膜图像数据集上进行实验,均取得了较好的分割效果。实验结果证明,该模型能较好地区分噪声和毛细血管,分割出结构较完整的视网膜血管,具有泛化性和鲁棒性。  相似文献   

12.
针对滚动轴承原始时域信号信息单一、深度卷积神经网络提取的特征对信息的传递存在差异等问题,该研究提出了一种多域信息融合与改进残差密集网络的轴承故障诊断方法。为了获取故障的多方面信息,先对原始数据进行多域变换,再将融合信息输入经卷积注意力改进的残差密集网络进行深度学习。经注意力机制改进的网络能够实现对提取特征的重要性区分,提高网络的训练速度、改善识别准确率。试验结果及对比分析表明该算法可以提取较为全面的特征,较传统方法具有更好的识别效果。  相似文献   

13.
在场景识别任务中,由于场景图像类内变化大,类间相似度高,不同场景类别之间表现出相似的外观和对象分布,从而容易导致场景识别任务的失败.为解决该问题,本文提出一种基于语义分割及高效网络相结合的场景识别模型.该模型由语义分支和RGB分支两部分组成,语义分支在语义分割基础上进一步提取图像上下文信息,RGB分支采用高效网络来提取图像的全局特征,通过注意力机制将两个分支的输出特征进行融合,最终输入线性分类器以实现场景识别的预测.将提出的网络模型在ADE20K,MIT Indoor 67和SUN3973个数据集进行训练与测试,实验结果表明,提出的模型可以显著减少网络参数数量,同时提高场景识别的准确率.  相似文献   

14.
太阳能电池片表面缺陷具有类内差异大、类间差异小和背景特征复杂等特点,因此,要实现高精度的太阳能电池片表面缺陷自动检测是一项富有挑战性的任务。针对此问题,该文提出融合局部和全局特征的卷积视觉Transformer网络(CViT-Net),首先采用Ghost聚焦(G-C2F)模块提取电池片缺陷局部特征;然后引进坐标注意力强调缺陷特征并抑制背景特征;最后构建Ghost视觉(G-ViT)模块融合电池片缺陷局部特征和全局特征。同时,针对不同检测精度和模型参数量,分别提供了CViT-Net-S和CViT-Net-L两种网络结构。实验结果表明,与经典MobileVit、MobileNetV3和GhostNet轻量级网络相比,CViT-Net-S对电池片分类准确率分别提升了1.4%、2.3%和1.3%,对电池片检测mAP50分别提升了2.7%、0.3%和0.8%;与ResNet50、RegNet网络相比,CViT-Net-L分类准确率分别提升了0.72%和0.7%,检测mAP50分别提升了3.9%、1.3%;与先进YOLOv6、YOLOv7和YOLOv8检测网络相比,作为骨干网络的CViT-Net-S...  相似文献   

15.
针对变工况条件下传统方法仅提取局部特征导致准确率低以及样本维度过高导致训练耗时巨大等问题,提出一种改进的时域卷积池化网络模型(Temporal Convolutional Pooling Neural Network,简称TCPN)。首先,将原始轴承振动信号经过短时傅里叶变换得到二维时频矩阵,再将二维时频矩阵平铺为一维时频序列,并取绝对值;其次,虽然膨胀卷积可以大幅度扩大感受野,但是对于轴承振动信号等高维特征仍需要较深的网络结构,因此对膨胀卷积进行结构优化,用于挖掘全局特征,同时降低模型复杂程度。再次,为模糊不同工况下相同故障的分布差异,对残差块进行结构优化,使用小卷积核提取局部特征,以拼接的方式与膨胀卷积进行特征融合,兼顾轴承振动信号中的全局特征与局部特征;最后,为了解决训练样本维度太高导致的训练成本过高的问题,对原始数据进行降采样研究,在保持较高准确率的情况下大量节省了训练时间。将所提方法与传统卷积神经网络及时域卷积神经网络(Temporal convolutional neural network,简称TCN)相比,实验结果表明,提出的模型准确率提高约5 %,模型训练耗时降低约30 %,并且收敛速度更快,训练模型的迭代次数更少,具有很强的鲁棒性。  相似文献   

16.
高分辨率遥感图像含有许多较为复杂的地物信息,对其进行的语义分割存在分割精度低、分割边界模糊等问题.本文提出一种新型的多尺度语义分割网络模型,旨在提高遥感图像语义分割精度.该模型为编码—解码(Encoder-Decoder)网络结构,编码器利用残差网络对图像特征进行提取;解码器利用反卷积进行上采样;残差连接将提取到的高级语义特征与残差连接层提取到的多尺度特征进行融合;同时使用Dice损失函数代替传统的交叉熵损失函数,以处理多类语义分割任务中的类别数量不平衡和难分样本问题.实验可得:与其它经典分割模型相比,本文算法对遥感图像具有较高的分割精度,所提出的方法在"CCF卫星影像的AI分类与识别竞赛"的数据集上均交并比(Mean Intersection over Union, MIoU)值达到了0.823 5,召回率Recall达到0.891 4.  相似文献   

17.
针对传统的机械故障诊断方法特征提取困难问题,提出一种新颖的基于特征通道重标定的动态加权多尺度残差网络旋转机械故障诊断方法。将原始数据作为网络的输入,设计宽卷积层进行信息初步融合扩大模型的感受野;再分别构建三个独立的以残差块为基础的并行分支网络,通过设计多尺度卷积核分别从并行分支网络提取深度特征;接着设计动态加权层建立全局信息建模特征通道之间的动态非线性关系,对每个尺度的特征通道进行重标定,提高网络对故障信息的敏感性;将三个尺度的特征进行特征融合,通过分类器实现故障诊断。在多个数据集上进行试验,验证了该算法的有效性。  相似文献   

18.
为充分提取图像中可辨识信息、提高分类正确率,提出多核近似学习网,该网络主要由2部分构成。在特征提取部分,利用二维高斯分布对原始图像进行区域渐进增强,局部感受野和全局感受野被用于充分提取原始图像和区域渐进增强图像中的局部和全局特征,并将其串联以组成代表图像的特征向量。在分类部分,提出多核近似算法,将近似核映射编码出的低秩特征矩阵作为网络的隐藏层,以求解网络的输出权重。为验证该网络的有效性,利用USPS、MNIST和NORB数据集进行实验,实验证明所提出的多核近似学习网能够在局部感受野极端学习机的基础上进一步提取出特征信息,有效提高了分类正确率。  相似文献   

19.
目的 为提高连续手语识别准确率,缓解听障人群与非听障人群的沟通障碍。方法 提出了基于全局注意力机制和LSTM的连续手语识别算法。通过帧间差分法对视频数据进行预处理,消除视频冗余帧,借助ResNet网络提取特征序列。通过注意力机制加权,获得全局手语状态特征,并利用LSTM进行时序分析,形成一种基于全局注意力机制和LSTM的连续手语识别算法,实现连续手语识别。结果 实验结果表明,该算法在中文连续手语数据集CSL上的平均识别率为90.08%,平均词错误率为41.2%,与5种算法相比,该方法在识别准确率与翻译性能上具有优势。结论 基于全局注意力机制和LSTM的连续手语识别算法实现了连续手语识别,并且具有较好的识别效果及翻译性能,对促进听障人群无障碍融入社会方面具有积极的意义。  相似文献   

20.
简川霞  陈鑫  林浩  张韬  王华明 《包装工程》2021,42(15):275-283
目的 针对目前印刷套准识别方法依赖于经验人工设计特征提取的问题,提出一种不需要人工提取图像特征的卷积神经网络模型,实现印刷套准状态的识别.方法 采用图像增强技术实现不均衡训练集的均衡化,增加训练集图像的数量,提高模型的识别准确率.设计基于AlexNet网络结构的印刷套准识别模型的结构参数,分析批处理样本数量和基础学习率对模型性能的影响规律.结果 文中方法获得的总印刷套准识别准确率为0.9860,召回率为1.0000,分类准确率几何平均数为0.9869.结论 文中方法能自动提取图像特征,不依赖于人工设计的特征提取方法.在构造的数据集上,文中方法的分类性能优于实验中的支持向量机方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号