首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
针对频谱图对于音乐特征挖掘较弱、深度学习分类模型复杂且训练时间长的问题,设计了一种基于频谱增强和卷积宽度学习(CNNBLS)的音乐流派分类模型.该模型首先通过SpecAugment中随机屏蔽部分频率信道的方法增强梅尔频谱图,再将切割后的梅尔频谱图作为CNNBLS的输入,同时将指数线性单元函数(ELU)融合进CNNBLS的卷积层,以增强其分类精度.相较于其他机器学习网络框架, CNNBLS能用少量的训练时间获得较高的分类精度.此外, CNNBLS可以对增量数据进行快速学习.实验结果表明:无增量模型CNNBLS在训练400首音乐数据可获得90.06%的分类准确率,增量模型Incremental-CNNBLS在增加400首训练数据后可达91.53%的分类准确率.  相似文献   

2.
针对机器学习模型对音乐流派特征识别能力较弱的问题,提出了一种基于深度卷积神经网络的音乐流派识别(DCNN-MGR)模型。该模型首先通过快速傅里叶变换提取音频信息,生成可以输入DCNN的频谱并切割生成频谱切片。然后通过融合带泄露整流(Leaky ReLU)函数、双曲正切(Tanh)函数和Softplus分类器对AlexNet进行增强。其次将生成的频谱切片输入增强的AlexNet进行多批次的训练与验证,提取并学习音乐特征,得到可以有效分辨音乐特征的网络模型。最后使用输出模型进行音乐流派识别测试。实验结果表明,增强的AlexNet在音乐特征识别准确率和网络收敛效果上明显优于AlexNet及其他常用的DCNN、DCNN-MGR模型在音乐流派识别准确率上比其他机器学习模型提升了4%~20%。  相似文献   

3.
基于自注意力机制时频谱同源特征融合的鸟鸣声分类   总被引:1,自引:0,他引:1  
目前深度学习模型大都难以应对复杂背景噪声下的鸟鸣声分类问题。考虑到鸟鸣声具有时域连续性、频域高低性特点,提出了一种利用同源谱图特征进行融合的模型用于复杂背景噪声下的鸟鸣声分类。首先,使用卷积神经网络(CNN)提取鸟鸣声梅尔时频谱特征;然后,使用特定的卷积以及下采样操作,将同一梅尔时频谱特征的时域和频域维度分别压缩至1,得到仅包含鸟鸣声高低特性的频域特征以及连续特性的时域特征。基于上述提取频域以及时域特征的操作,在时域和频域维度上同时对梅尔时频谱特征进行提取,得到具有连续性以及高低特性的时频域特征。然后,将自注意力机制分别用于得到的时域、频域、时频域特征以加强其各自拥有的特性。最后,将这三类同源谱图特征决策融合后的结果用于鸟鸣声分类。所提模型用于Xeno-canto网站的8种鸟类音频分类,并在分类对比实验中取得了平均精确率(MAP)为0.939的较好结果。实验结果表明该模型能应对复杂背景噪声下的鸟鸣声分类效果较差的问题。  相似文献   

4.
随着深度学习技术的快速发展,许多研究者尝试利用深度学习来解决文本分类问题,特别是在卷积神经网络和循环神经网络方面,出现了许多新颖且有效的分类方法。对基于深度神经网络的文本分类问题进行分析,介绍卷积神经网络、循环神经网络、注意力机制等方法在文本分类中的应用和发展,分析多种典型分类方法的特点和性能,从准确率和运行时间方面对基础网络结构进行比较,表明深度神经网络较传统机器学习方法在用于文本分类时更具优势,其中卷积神经网络具有优秀的分类性能和泛化能力。在此基础上,指出当前深度文本分类模型存在的不足,并对未来的研究方向进行展望。  相似文献   

5.
在音乐流派分类过程中,音乐流派局部特征与整体特征不一致时,通常采用的局部特征投票取最大的方法(MaxVote)在音频片段流派分类精度不高,而流派特征分布比较均衡时分类结果不合理。针对以上问题,该文提出基于音乐片段流派分布特征的神经网络投票机制(NNVote)和结合高层音乐节奏特征的RhythmNNVote投票方法。实验结果表明,NNVote方法在7个流派上的分类总精度达到68.9%,较MaxVote提高将近10%。  相似文献   

6.
在长文本数据中存在很多与主题不相关词汇,导致这些文本数据具有信息容量大、特征表征不突出等特点。增加这些文本中关键词汇的特征影响,是提高文本分类器性能需要解决的问题。提出一种结合自注意力机制的循环卷积神经网络文本分类模型RCNN_A。注意力机制对文本词向量计算其对正确分类类别的贡献度,得到注意力矩阵,将注意力矩阵和词向量矩阵相结合作为后续结构的输入。实验结果表明,RCNN_A在10类搜狗新闻数据集上,得到了97.35%的分类正确率,比Bi-LSTM(94.75%)、Bi-GRU(94.25%)、TextCNN(93.31%)、RCNN(95.75%)具有更好的文本分类表现。通过在深度神经网络模型中引入注意力机制,能够有效提升文本分类器性能。  相似文献   

7.
8.
在海量音乐中,如何根据用户的历史收听记录分析用户需求以实现歌曲推荐是音乐推荐领域具有挑战性课题之一。现有的音乐推荐方法仅简单将用户听过的所有音乐均作为音乐推荐的上下文,导致不同类型音乐学习到的上下文权重分配相同,其严重影响了音乐推荐精度。针对此问题,提出了一种基于注意力机制的音乐深度推荐方法,针对不同用户的历史收听音乐动态分配不同的注意力,即学习出不同的上下文权重,使推荐结果更符合用户的实际偏好。通过在公开音乐数据集Million Song Dateset上的测试,所提方法的推荐准确率有很大的提升。  相似文献   

9.
由于高类内和低类间方差,细粒度图像识别成为计算机视觉领域一项极具挑战性的研究课题。经典的细粒度图像识别方法采用单输入单输出的方式,限制了模型从成对图像中对比学习推理的能力。受人类在判别细粒度图像时的行为启发,提出了深度成对特征对比交互细粒度分类算法(PCI),深度对比寻找图像对之间的共同、差异特征,有效提升细粒度识别精度。首先,PCI建立正负对输入策略,提取细粒度图像的成对深度特征;其次,建立深度成对特征交互机制,实现成对深度特征的全局信息学习、深度对比以及深度自适应交互;最后,建立成对特征对比学习机制,通过对比学习约束成对深度细粒度特征,增大正对之间的相似性并减小负对之间的相似性。在流行的细粒度数据集CUB-200-2011、Stanford Dogs、Stanford Cars以及FGVC-Aircraft上开展了广泛的实验,实验结果表明PCI的性能优于当前最先进的方法。  相似文献   

10.
陈鑫华  钱雪忠  宋威 《计算机工程》2021,47(11):268-275
传统卷积神经网络存在卷积核单一、网络结构复杂和参数冗余的问题。提出一种轻量级特征融合卷积神经网络MS-FNet。在融合模块中采用多路结构以增加卷积神经网络的宽度,通过不同尺寸的卷积核对输入特征图进行处理,提高网络在同一层中提取不同特征的能力,并在每次卷积后采用批归一化、ReLU等方法去除冗余特征。此外,使用卷积层代替传统的全连接层,从而加快模型的训练速度,缓解因参数过多造成的过拟合现象。实验结果表明,MS-FNet可在降低错误率的同时,有效减少网络参数量。  相似文献   

11.
The genre is an abstract feature, but still, it is considered to be one of the important characteristics of music. Genre recognition forms an essential component for a large number of commercial music applications. Most of the existing music genre recognition algorithms are based on manual feature extraction techniques. These extracted features are used to develop a classifier model to identify the genre. However, in many cases, it has been observed that a set of features giving excellent accuracy fails to explain the underlying typical characteristics of music genres. It has also been observed that some of the features provide a satisfactory level of performance on a particular dataset but fail to provide similar performance on other datasets. Hence, each dataset mostly requires manual selection of appropriate acoustic features to achieve an adequate level of performance on it. In this paper, we propose a genre recognition algorithm that uses almost no handcrafted features. The convolutional recurrent neural network‐based model proposed in this study is trained on melspectrogram extracted from 3‐s duration audio clips taken from GTZAN dataset. The proposed model provides an accuracy of 85.36% on 10‐class genre classification. The same model has been trained and tested on 10 genres of MagnaTagATune dataset having 18,476 clips of 29‐s duration. The model has yielded an accuracy of 86.06%. The experimental results suggest that the proposed architecture with melspectrogram as input feature is capable of providing consistent performances across the different datasets  相似文献   

12.
针对图像分类任务中现有神经网络模型对分类对象特征表征能力不足,导致识别精度不高的问题,提出一种基于轻量级分组注意力模块(LGAM)的图像分类算法。该模块从输入特征图的通道和空间两个方向出发重构特征图:首先,将输入特征图沿通道方向进行分组并生成每个分组对应的通道注意力权重,同时采用阶梯型结构解决分组间信息不流通的问题;然后,基于各分组串联成的新特征图生成全局空间注意力权重,通过两种注意力权重加权得到重构特征图;最后,将重构特征图与输入特征图融合得到增强的特征图。以分类Top-1错误率作为评估指标,基于Cifar10和Cifar100数据集以及部分ImageNet2012数据集,对经LGAM增强之后的ResNet、Wide-ResNet、ResNeXt进行对比实验。实验结果表明,经LGAM增强之后的神经网络模型其Top-1错误率均低于增强之前1至2个百分点。因此LGAM能够提升现有神经网络模型的特征表征能力,从而提高图像分类的识别精度。  相似文献   

13.
孙辉  许洁萍  刘彬彬 《计算机应用》2015,35(6):1753-1756
针对不同特征向量下选择最优核函数的学习方法问题,将多核学习支持向量机(MK-SVM)应用于音乐流派自动分类中,提出了将最优核函数进行加权组合构成合成核函数进行流派分类的方法。多核分类学习能够针对不同的声学特征采用不同的最优核函数,并通过学习得到各个核函数在分类中的权重,从而明确各声学特征在流派分类中的权重,为音乐流派分类中特征向量的分析和选择提供了一个清晰、明确的结果。在ISMIR 2011竞赛数据集上验证了提出的基于多核学习支持向量机(MKL-SVM)的分类方法,并与传统的基于单核支持向量机的方法进行了比较分析。实验结果表明基于MKL-SVM的音乐流派自动分类准确率比传统单核支持向量机的分类准确率提高了6.58%,且该方法与传统的特征选择结果比较,更清楚地解释了所选择的特征向量对流派分类的影响大小,通过选择影响较大的特征组合进行分类,分类结果也有了明显的提升。  相似文献   

14.
针对卷积神经网络的庞大参数量和计算量难以应用于移动设备或嵌入式设备的问题,提出冗余特征重建模块(redundant feature reconstruction,RFR)和组注意力卷积模块(group attention convolution,GAC),RFR模块使用较少的参数量提取重要的固有特征,通过线性算子重建冗...  相似文献   

15.
针对传统鉴别器的损失策略和结构难以提取到更抽象以及任务相关的鲁棒性特征,从而导致半监督图像分类表现不足,提出了基于特征重标定的生成对抗网络。为了学习到任务相关的特征,在现有半监督GAN的基础上,为鉴别器引入模型在不同状态下的无监督均方差损失正则项,对训练样本中两个分支的同一输入对应得到的不同输出进行参数惩罚,从而指导特征重标定的优化方向。此外,在鉴别器中加入压缩激活模块来优化传统鉴别器的卷积池化结构。该模块自动学习每一个特征通道的重要程度,能够提取任务相关的特征抑制任务无关的特征,实现特征的重标定功能,从而提高半监督图像分类的表现。  相似文献   

16.
阿尔兹海默症(AD)是一种不可逆的神经退行性大脑疾病,也是老年人群中最常见的痴呆症。人工分类阿尔兹海默症的核磁共振影像(MRI)存在分类延迟和分类耗时等问题。随着人口老龄化的日趋严重,准确而快速地分类出阿尔兹海默症患者具有重要的研究意义。将卷积神经网络(CNN)技术和核磁共振成像技术相结合,设计了一个3D-ResNet算法用于AD分类,在验证集上取得了98.39%的准确性、96.74%的敏感性和99.99%的特异性,在测试集上取得了97.43%的准确性、94.92%的敏感性和99.99%的特异性,每个患者的分类时间是0.23 s。此外,针对AD的发病机制尚不明确的问题,通过类激活映射(CAM)技术来可视化与AD相关的脑部区域。  相似文献   

17.
卢健  马成贤  杨腾飞  周嫣然 《计算机应用研究》2020,37(6):1693-1696,1701
迄今为止,传统机器学习方法依赖人工提取特征,复杂度高;深度学习网络本身特征表达能力强,但模型可解释性弱导致关键特征信息丢失。为此,以网络层次结合的方式设计了CRNN并引入attention机制,提出一种Text-CRNN+attention模型用于文本分类。首先利用CNN处理局部特征的位置不变性,提取高效局部特征信息;然后在RNN进行序列特征建模时引入attention机制对每一时刻输出序列信息进行自动加权,减少关键特征的丢失,最后完成时间和空间上的特征提取。实验结果表明,提出的模型较其他模型准确率提升了2%~3%;在提取文本特征时,该模型既保证了数据的局部相关性又起到强化序列特征的有效组合能力。  相似文献   

18.
针对现有视频关键帧提取算法对运动类视频中运动特征提取不准导致的漏检和误检问题,提出一种融合多路特征和注意力机制的强化学习关键帧提取算法。该算法首先通过人体姿态识别算法对视频序列进行人体骨骼关节点提取;然后使用S-GCN和ResNet50网络分别提取视频序列中的运动特征和静态特征,并将两者进行加权融合;最后应用注意力机制对特征序列进行视频帧重要性计算,并利用强化学习进行关键帧的提取和优化。实验结果表明,该算法能较好地解决运动类视频在关键帧提取中出现的漏误检问题,在检测含有关键性动作的视频帧时表现较好,算法准确率高、稳定性强。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号