首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 406 毫秒
1.
本文研究了基于anchor模型的说话人检索技术,提出了基于SCV分量方差和基于广义似然比聚类的模型剪枝方法,对基于序数比较的相似测度进行了改进,使SCV各分量的数值和比值都参与到识别中来,提高了检索性能.通过实验印证了将传统的说话人检索中的模型训练过程转变为计算语音相对于anchor说话人模型距离的映射过程,所带来的计算量和存储量的优势,为说话人检索在大型语音库和嵌入式系统的应用提出了新的思路.  相似文献   

2.
随着大数据时代的到来,各种音频、视频文件日益增多,如何高效地定位关键敏感信息具有非常重要的研究意义。目前研究人员对针对英语和汉语的语音检索技术进行了深入的研究,而针对维吾尔语的语音检索技术还处于起步阶段。该文对维吾尔语语音关键词检索技术进行了研究并采用了大词汇量连续语音识别、利用聚类算法将多候选词图转换为混淆网络、倒排索引、置信度以及相关度的计算等技术和方法,对维吾尔语语音检索系统进行了研究与搭建。最后在测试集上对该系统进行测试,测试结果显示,在语音识别正确率为82.1%的情况下,检索系统的召回率分别达到97.0%和79.1%时,虚警率分别为13.5%和8.5%。  相似文献   

3.
本文研究了基于anchor模型的说话人检索技术,提出了基于SCV分量方差和基于广义似然比聚类的模型剪枝方法.对基于序数比较的相似测度进行了改进,使SCV各分量的数值和比值都参与到识别中来,提高了检索性能。通过实验印证了将传统的说话人检索中的模型训练过程转变为计算语音相对于anchor说话人模型距离的映射过程.所带来的计算量和存储量的优势.为说话人检索在大型语音库和嵌入式系统的应用提出了新的思路:  相似文献   

4.
汉语语音检索的集外词问题与两阶段检索方法   总被引:2,自引:0,他引:2  
该文针对大规模汉语语音检索任务提出汉语语音检索中的集外词问题和针对集外查询词的两阶段检索方法。汉语语音识别和检索中,集外词可以以词表词序列的形式被识别和检索到,因此被认为不存在集外词问题;该文发现集外查询词性能远远低于集内查询词,将此问题定义为汉语语音检索任务的集外词问题,并提出两阶段的检索方法,第一阶段通过模糊音素匹配的方法提高查全率,第二阶段通过词格修正的方法提高查准率。实验表明,两阶段的检索方法极大的提高了典型集外查询词的检索性能,FOM指标相对基线系统提高了24.1%。  相似文献   

5.
随着英汉语音识别技术的不断发展,对少数民族语言语音识别技术的研究也紧跟其后并取得了一定的成果.藏族人民是中华民族大家庭中不可或缺的一员,藏语语音识别技术研究是语音识别技术研究中不可缺少的重要部分.文章首先对国内藏语言语音识别的研究历程及研究改进之处进行了梳理,其次从藏语言本身的文字特点以及发音特点和要素出发详细介绍了藏语语音识别研究中使用到的基于模板匹配、统计概率模型以及人工神经网络3种方法,并对3种方法各自的特点和适用范围进行了总结归纳,最后从藏语言语音识别研究进展和各识别方法的自身特点出发探讨了语音识别研究中存在的难点问题,并展望了其未来发展的方向.  相似文献   

6.
识别率和对环境的适应能力是一个语音识别系统的两个重要性能,常见的提高语音识别率的方法大多通过改进声音模型来获得较高的识别率,这往往造成声音模型的复杂化以及模型训练的困难。另外,在说话人和麦克风位置不固定等情况下,这些方法识别效果往往很差。文中提出了一种用多话筒分别识别一个语音,并用数据融合技术对识别结果进行处理的语音识别方法。初步的实验结果表明该方法不仅可以提高系统对环境的适应能力,而且在单个声音  相似文献   

7.
端点检测是语音识别申的一项关键技术,端点检测的准确性对语音识别的性能有很大影响。论文对基于短时能量和短时过零率及基于LPC倒谱特征的端点检测算法进行了研究,给出改进的基于LPC美尔倒谱特征的端点检测算法,并通过实验证明其在低信噪比下具有较好的检测性能。随着语音识别技术的发展,这种算法在实际应用中的高效率、实时、准确性会逐渐显现出。  相似文献   

8.
广播语音的自动识别、标注、检索等是涉及到语音技术、自然语言处理、信息检索等多个领域的综合性课题。在介绍了广播语音的自动标注与检索的研究概况并分析了其中涉及的关键技术基础上,提出了面向普通话广播语音的多层次自动标注框架以及基于多层次标注的语音检索方案,对文档层、句子层和词语层的标注属性进行了探讨,采用了递归标注方法对属性逐层细化,并讨论了对语音自动标注至关重要的语音识别引擎和语音流分割等问题。基于本文提出的方法,对10 小时的普通话广播语音资料进行了标注和检索,得到了比较满意的实验结果。  相似文献   

9.
基于神经网络的语音识别技术研究   总被引:5,自引:0,他引:5  
对BP神经网络在特定人语音识别技术中的应用进行了探索性的研究,进而对非特定人语音识别做了一定的实验和研究。通过对比分析了传统的语音识别方法——模板匹配法和人工神经网络语音识别方法的优缺点。神经网络可以得到较高的识别准确度,但是训练速度慢是它的弱点,因此,针对经典的BP算法训练速度慢的缺点,对BP网络加以改进,提高网络训练速度,通过改进使神经网络用于语音识别的各种优越性充分发挥。  相似文献   

10.
语音情感识别技术在人类生活中正扮演着越来越重要的作用。为了更为有效识别语音信号中的情感类型,提出一种改进遗传算法优化BP神经网络的识别算法(IAGA-BP)。该算法一方面改进了自适应遗传算法中的选择算子,另一方面更改了自适应遗传算法中的交叉和变异概率公式。通过对自适应遗传算法的改进,提升了遗传算法的寻优性能,并以此对BP神经网络初始的权阈值进行优化。在与BP、GA-BP和AGA-BP网络比较中,实验结果表明,IAGA-BP网络能够有效提高语音情感识别率,并加快了网路收敛速度。  相似文献   

11.
音频信息检索   总被引:10,自引:0,他引:10  
回顾了国内外现行的音频信息检索方法,分析了常见的音频数据处理技术,包括语音识别技术和基于内容的音频检索技术,提出了基于内容的音频检索的一般方法,并指出了相应研究中的关键问题。  相似文献   

12.
This paper proposes an efficient speech data selection technique that can identify those data that will be well recognized. Conventional confidence measure techniques can also identify well-recognized speech data. However, those techniques require a lot of computation time for speech recognition processing to estimate confidence scores. Speech data with low confidence should not go through the time-consuming recognition process since they will yield erroneous spoken documents that will eventually be rejected. The proposed technique can select the speech data that will be acceptable for speech recognition applications. It rapidly selects speech data with high prior confidence based on acoustic likelihood values and using only speech and monophone models. Experiments show that the proposed confidence estimation technique is over 50 times faster than the conventional posterior confidence measure while providing equivalent data selection performance for speech recognition and spoken document retrieval.  相似文献   

13.
14.
陆明明  张连海  屈丹  牛铜 《计算机工程》2012,38(19):159-162
为提高索引覆盖率并获得更多的候选路径,提出一种在词格上融合音位属性的语音文档索引方法.通过基于音位属性检测的语音识别系统建立词格,利用其信息互补性,与传统的词格进行起止节点合并.针对合并后Lattice规模增大的问题,采用基于位置的分段对齐方法对其结构进行压缩.实验结果表明,该方法在提高索引覆盖率和降低最小错误率方面均优于传统的语音文档索引方法,能够有效提高语音检索性能.  相似文献   

15.
16.
张爱英 《计算机科学》2018,45(9):308-313
利用多语言信息可以提高资源稀缺语言识别系统的性能。但是,在利用多语言信息提高资源稀缺目标语言识别系统的性能时,并不是所有语言的语音数据对资源稀缺目标语言语音识别系统的性能提高都有帮助。文中提出利用长短时记忆递归神经网络语言辨识方法 选择 多语言数据以提高资源稀缺目标语言识别系统的性能;选出更加有效的多语言数据用于训练多语言深度神经网络和深度Bottleneck神经网络。通过跨语言迁移学习获得的深度神经网络和通过深度Bottleneck神经网络获得的Bottleneck特征都对 提高 资源稀缺目标语言语音识别系统的性能有很大的帮助。与基线系统相比,在插值的Web语言模型解码条件下,所提系统的错误率分别有10.5%和11.4%的绝对减少。  相似文献   

17.
抗噪声语音识别及语音增强算法的应用   总被引:1,自引:0,他引:1  
汤玲  戴斌 《计算机仿真》2006,23(9):80-82,143
提高语音识别系统的鲁棒性是语音识别技术一个重要的研究课题。语音识别系统往往由于训练环境下的数据和识别环境下的数据不匹配造成系统的识别性能下降,为了让语音识别系统在含噪的环境下获得令人满意的工作性能,该文根据人耳听觉特性提出了一种鲁棒语音特征提取方法。在MFCC特征提取之前先对含噪语音特征进行掩蔽特性处理,同时结合语音增强方法对特征进行处理,最后得到鲁棒语音特征。通过4种不同试验结果分析表明,将这种方法用于抗噪声分析可以提高系统的抗噪声能力;同时这种特征的处理方法对不同噪声在不同信噪比有很好的适应性。  相似文献   

18.
19.
Abstract

Since the 1970s, many improvements have been made in the technology available for automatic speech recognition (ASR). Changes in the methods of analysing the incoming speech have resulted in larger, more complex vocabularies being used with greater recognition accuracy. Despite this enhanced performance and substantial research activity, the introduction of voice input into the office is still largely unrealized. This paper reviews the state-of-the-art of office applications of ASR, dividing them into the areas of voice messaging and word processing activities, data entry and information retrieval systems, and environmental control. Within these areas, cartographic computer-aided-design systems are identified as an application with proven success. The slow growth of voice input in the office is discussed in the light of constraints imposed by existing speech technology, and the need for human factors evaluation of potential applications.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号