首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 171 毫秒
1.
音频分割是音频分析与检测应用的基础,也是多媒体数据分析领域中的一个十分重要和困难的问题。目前大多数传统的音频流分割方法普遍存在虚假分割点过多、运算量太大、误检与漏检率过高等缺点。为了提高分割性能,有效降低误检率和漏检率,提出关于定长窗分层检测的音频分割算法,采用定长窗滑动遍历音频流,窗内自顶向下分层次地计算检测跳变点,最后用局部极值判定方法验证检测到的候选跳变点。实验结果证明,同传统的混合分割算法相比,处理速度得到大幅提高的同时,跳变点的召回率提高7.1%,准确率达92%。  相似文献   

2.
《微型机与应用》2017,(5):38-41
解决大规模音频数据库快速检索的有效手段之一是建立合适的音频索引,其中音频分割和标注是建立音频索引的基础。文中采用了一种基于短时能量和改进度量距离的两步音频分割算法,使得分割后的音频片段具有段间特征差异大、段内特征方差小的特点。在音频分割的基础上进行了音频数据库中音频流的标注;分别基于BP神经网络算法和Philips音频指纹算法对音频进行了音频类别和音频内容的标注,为后续建立音频索引表做准备。实验结果表明,两步分割算法能较好地分割任意音频流,音频标注算法能有效进行基于音频类别和音频内容的标注,算法同时具有良好的鲁棒性。  相似文献   

3.
语音/音乐区分是音频高效编码、音频检索、自动语音识别等音频处理和分析的重要步骤。本文提出一种新颖的语音/音乐分割与分类方法,首先根据相邻帧间的均方能量差异检测音频的变化点,实现分割;然后对音频段提取低带能量方差比、倒谱能量调制、熵调制等八维特征,用人工神经网络做分类。实验结果显示,本文算法和特征具有很高的分割准确率和分类正确率。  相似文献   

4.
视频数据中的音频流包含了丰富的语义信息.在基于内容的视频检索中,对音频信息的分析是不可分割的一部分.本文主要讨论基于内容的音频场景分割,分析各种音频特征及提取方法,并在此基础上提出一种新的音频流分割方法,根据六种音频类型(语音、音乐、静音、环境音、纯语音、音乐背景下的语音和环境音背景下的语音)的音频特征对视频数据中的音频流分割音频场景.实验证明该方法是有效的,在保证一定的分割精度的同时,准确率和查全率都得到了较大的提高.  相似文献   

5.
在音频相关的系统中,迫切需要利用语音识别技术,对音频流自动识别和分割,以及设计不同的模式,利用消息.动作自动机进行各种复杂控制。介绍了一种新的基于模式的、具有实时性的音频流分割控制系统。  相似文献   

6.
基于支持向量机的音频分类与分割   总被引:8,自引:0,他引:8  
音频分类与分割是提取音频结构和内容语义的重要手段,是基于内容的音频、视频检索和分析的基础。支持向量机(SVM)是一种有效的统计学习方法。本文提出了一种基于SVM的音频分类算法。将音频分为5类:静音、噪音、音乐、纯语音和带背景音的语音。在分类的基础上,采用3个平滑规则对分类结果进行平滑。分析了SVM分类嚣的分类性能,同时也评估了本文提出的新的音频特征在SVM分类嚣上的分类效果。实验结果显示,基于SVM的音频分类算法分类效果良好,平滑处理后的音频分割结果比较准确。  相似文献   

7.
广播语音的音频分割   总被引:1,自引:2,他引:1  
本文的广播电视新闻的分割系统分为三部分:分割、分类和聚类。分割部分是采用本文提出的基于检测熵变化趋势的分割算法来检测连续语音音频信号的声学特征跳变点,从而实现不同性质的音频信号的分割。这种检测方法不同于传统的需要门限的跳变点检测方法,它是以检测一定窗长的信号内部的每一个可能的分割点所分割的两段信号的信号熵的变化趋势来检测音频信号声学特征跳变点的,可以避免由于门限的选择不当所带来的分割错误。分类部分是采用传统的基于高斯混合模型(GMM)的高斯分类器进行分类,聚类部分采用基于矢量量化(VQ)的说话人聚类算法进行说话人聚类。应用此系统分割三段30分钟的新闻,成功的实现了连续音频信号的分割,去除掉了所有的背景音乐,以较高的精度把属于同一个人的说话语音划归为一类,为广播语音的分类识别打下了良好的基础。  相似文献   

8.
提出基于可信度变化趋势的音频分割算法。采用定长滑动窗检测结构减少累积错误,在窗内计算各音频帧的可信度,根据可信度的变化趋势检测跳变点,以避免阈值选择和硬门限判决造成的误检。实验结果表明,该算法的分割性能优于基于KL2距离、基于隐马尔可夫模型、基于贝叶斯信息准则和基于熵变化趋势的音频分割算法。  相似文献   

9.
新闻视频故事分割是新闻视频分析的重要底层支持技术,本文提出了一种融合音频、视频等多模态特征的新闻视频故事分割方法.首先分析音频特征的静音片段作为音频特征候选点,对视频进行镜头分割,并将镜头分割结果分类为播音员镜头和新闻报道镜头,将所有的镜头分割点和播音员镜头片段提取为视频片段候选点;然后通过对新闻视频编辑规则的研究,对视频、音频特征候选点融合分析来获取新闻视频的故事分割,实验表明该方法在不同新闻视频编辑规则下都具有较好的分割效率.  相似文献   

10.
针对传统单一音频分割算法中存在的冗余分割点过多问题,研究了一种基于一般似然比(GLR)和贝叶斯信息准则(BIC)相结合的广播音频顺序分割算法,提出了候选跳变点潜在区域的判断准则,并给出跳变点在潜在区域的检测方法,最后对检测到的跳变点进行校验.实验结果表明,与传统的音频分割算法相比,该算法的综合性能大大提高,达到较好的分割效果.  相似文献   

11.
对新闻视频进行结构分析,提出一种基于多模态特征融合的新闻故事单元分割方法。将新闻视频分割成音频流和视频流,选择静音区间为音频候选点,将镜头边界切变点作为视频候选点,做主持人镜头和主题字幕的探测,挑选主持人镜头为候选区间,并记录主题字幕的起始位置和结束位置,利用时间轴融合音频候选点、视频候选点、主持人镜头和主题字幕,对新闻视频进行故事单元分割。实验结果表明,该方法的查全率为83.18%,查准率为83.92%。  相似文献   

12.
Content-based audio classification and segmentation is a basis for further audio/video analysis. In this paper, we present our work on audio segmentation and classification which employs support vector machines (SVMs). Five audio classes are considered in this paper: silence, music, background sound, pure speech, and non- pure speech which includes speech over music and speech over noise. A sound stream is segmented by classifying each sub-segment into one of these five classes. We have evaluated the performance of SVM on different audio type-pairs classification with testing unit of different- length and compared the performance of SVM, K-Nearest Neighbor (KNN), and Gaussian Mixture Model (GMM). We also evaluated the effectiveness of some new proposed features. Experiments on a database composed of about 4- hour audio data show that the proposed classifier is very efficient on audio classification and segmentation. It also shows the accuracy of the SVM-based method is much better than the method based on KNN and GMM.  相似文献   

13.
目的 由于舌体与周围组织颜色相似,轮廓模糊,传统的分割方法难以精准分割舌体,为此提出一种基于两阶段卷积神经网络的舌体分割方法。方法 首先,在粗分割阶段,将卷积层和全连接层相结合构建网络Rsnet,采用区域建议策略得到舌体候选框,从候选框中进一步确定舌体,从而实现对舌体的定位,去除大量的干扰信息;然后,在精分割阶段,将卷积层与反卷积层相结合构建网络Fsnet,对粗分割舌象中的每一个像素点进行分类进而实现精分割;最后,采用形态学相关算法对精分割后的舌体图像进行后续处理,进一步消除噪点和边缘粗糙点。结果 本文构建了包含2 764张舌象的数据集,在该数据集上进行五折交叉实验。实验结果表明,本文算法能够取得较为理想的分割结果且具有较快的处理速度。选取了精确度、召回率及F值作为评价标准,与3种常用的传统分割方法相比,在综合指标F值上分别提高了0.58、0.34、0.12,效率上至少提高6倍,与同样基于深度学习思想的MNC(multi-task network cascades)算法相比,在F值上提高0.17,效率上提高1.9倍。结论 将基于深度学习的方法应用到舌体分割中,有利于实现舌象的准确、鲁棒、快速分割。在分割之前,先对舌体进行定位,有助于进一步减少分割中的错分与漏分。实验结果表明,本文算法有效提升了舌体分割的准确性,能够为后续的舌象自动识别和分析奠定坚实的基础。  相似文献   

14.
一种基于边缘检测及纹理分析的水坝图像分割算法   总被引:1,自引:1,他引:0  
针对边缘检测算法的局限性及灰度水坝图像的特点,提出了一种基于边缘检测及纹理分析相结合的灰度图像分割算法,首先利用边缘检测算法对待处理图像进行边缘检测得到图像的粗分割,然后在原灰度图像中对得到的边缘位置点进行纹理分析,去除检测到的非目标对象的边缘从而得到分割图像,即细分割。将该算法应用到河坝监测系统中,实验证明该算法达到了很好的分割效果。  相似文献   

15.
提出了一种基于过零率和音频指纹的两步固定音频检索算法.在基于过零率直方图的初步检索中,采用直方图的迭代计算和动态的观测窗滑动步长来减少计算量并加快搜索速度,快速筛选出相似度较高的候选音频片段;接着基于降维Philips音频指纹对候选音频进行精检索,进一步提高检索精度.实验结果表明,该音频检索算法在保证较好的检索准确性基础上,大幅度提高了检索速度,且具有较好的鲁棒性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号