首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
随着语音识别研究的深入,提高通用识别引擎的精度变得越来越困难。但对具体的语音识别任务,结合相应的背景,采取相应的措施,有可能达到很理想的识别精度。在已知语音输入为某有限集元素之一的情形,利用文本在发音上的相似度可以大大提高识别的精度。本文首先介绍了文音相似度的概念,然后给出了利用文音相似度设计开发语音查询系统的过程和例子。  相似文献   

2.
语音识别的精度不够高始终是限制其广泛应用的瓶颈。针对具体应用中关键词汇和短语有限的特点,提出了音节相似度的概念,通过计算语音识别结果与应用域关键短语集合的音节相似度,找出最匹配结果,可有效提高语音识别应用的成功率。提出音节相似度的概念,给出利用音节相似度设计开发校园网语音浏览系统的过程。  相似文献   

3.
文中提出了一种改进的LPC语音编码方法,利用某些语音段声道变化缓慢的特性和基于似然比失真来判断LPC系统相似度,可以把LPC的码率降到1.7Kbps以下,而且仍有较好的合成语音质量。  相似文献   

4.
孤立词语音识别技术,采用的是模式匹配法,是语音识别技术的核心之一。首先,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入棋板库。然后,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。本文介绍了孤立词语音识别技术的研究现状及几种常见的技术方法,并且分析探讨了孤立词语音识别技术的应用和发展前景。  相似文献   

5.
为了快速和准确地鉴别有关人员的身份,开发一个指纹和语音自动识别系统。该系统通过采集指纹图像和语音信号,采用参考模型和相似度计算分别实现了指纹和语音识别。实验结果表明该系统不仅能自动地识别指纹和语音,而且还能实时地将识别结果与指纹和语音数据库进行比对,从而迅速地获得被识别人员的身份信息。该系统在监控出入境关口、机场车站、机关大院、住宅小区、以及刑事侦察等场合有着广泛的应用前景。  相似文献   

6.
一种文本相似度及其在语音识别中的应用   总被引:5,自引:1,他引:5  
随着语音识别研究的深入,提高通用识别引擎的精度变得越来越困难。但对具体的语音识别任务,结合相应的背景,采取相应的措施,有可能达到很理想的识别精度。在已知语音输入为某有限集元素之一的情形,利用文本在发音上的相似度可以大大提高识别的精度。本文对原有文本相似度的定义进行了改进与完善,并就其在语音识别任务中的作用进行了深入的研究。  相似文献   

7.
1.引言语音信号在进入语音识别系统之前,通常受到一些诸如语音产生过程、记录过程以及传输过程中产生的通道畸变的影响。例如:麦克风依赖于其类型和位置的不同能明显地影响语音信号的频谱,电话线网络的频率特性也对语音信号产生了频谱畸变的影响。这些由于传输通道而引入的频谱畸变将直接影响到语音信号的短时频谱分析结果,目前所有的语音识别系统中的参数计算,以及相似度测度都直接或间接地依赖于语音信号的短时频谱分析结果,  相似文献   

8.
人的声音虽然具有个性特征,但随着现代高科技的发展,人的语音也可以被模仿;当模仿者蓄意模仿说话人声音相似度极高时,当前语音身份确认系统就有可能会被模仿欺骗;为了防止造成国家和人民财产的重大损失,就此展开了语音反蓄意模仿的研究;为了进一步消除说话人语音中的噪声干扰以增强不同说话人的区分能力,研究了数学形态学及加权形态滤波器在一维语音信号中去噪的应用;研究表明,数学形态学对带噪语音信噪比的改善有较好的效果,进一步增强了区别蓄意模仿说话人的能力。  相似文献   

9.
针对有声出版物语音分割系统,提出了一种阈值自适应加相似度判决的系统分割模型,基于脚本中的先验知识提出了能量阈值自适应分割算法.对于传统的端点检测算法无法排除的干扰,为提高系统的抗干扰能力以增强其适用性,提出了基于语音单元相似性进行分析判决的新方法.测试结果表明,无干扰时,系统分割的正确率100%,每个语音文件包含两个人为干扰信号时,系统分割正确率98.8%,能够满足有声出版物语音自动分割的需要.  相似文献   

10.
沈玺  王永成 《计算机仿真》2006,23(2):222-226
使用语音识别技术为搜索引擎提供语音查询接口,使得奇询概念的输入更为简便。但是,由于查询概念中存在大量的专有名词和名称,识别精度往往不高,影响搜索结果的准确率。该文提出一种在新闻领域内,利用新闻领域知识提高查询概念识别率的方法,通过计算语音识别结果与新闻概念库中概念的语音相似度确定备选结果,计算备选结果与辅助概念的新闻相关度来确定最终的查询概念。实验证明,该方法对新闻搜索引擎的查询概念的纠错收到了良好的效果。  相似文献   

11.
文语转换是中文信息处理中研究的热点,是实现人机语音通信的一项关键技术。文章对实现中文文语转换的整个过程进行了初步分析和研究,给出了基于语音数据库的文语转换方法和实现过程。具体介绍了语音库的建立,分析了文本录入、文本分词、文本正则化、语音标注、韵律处理和语音合成等各个环节处理的内容及技术难点。  相似文献   

12.
提出了一种由语音和文本共同驱动的卡通人脸动画方法.建立了卡通人脸音节-视位参数库,并对音节-视位参数进行非监督聚类分析,获得32个人脸视位基本类型,基于文本信息进行音节切分,获得准确的时长参数.结合视位的基本类型和语音时长参数,可以对输入的语音/文本进行连续动画拼接.对从影视作品中收集的100条具有娱乐效果的语音/文本进行的实验表明,本文提出的方法可以克服单独的语音驱动或文本驱动的不足,取得较好的卡通人脸动画效果.  相似文献   

13.
语音合成技术是一门应用十分广泛的技术,用于将给定的文本数据转换为语音信号输出.简要介绍了微软语音合成引擎(Microsoft speech synthesis engine)和微软语音对象库(Microsoft speech object library)的运行机制,探讨了在Visual C#平台上,使用微软语音合成引擎和微软语音对象库实现语音合成的编程方法,并设计了具体的示例对这种编程方法进行了演示.  相似文献   

14.
语音翻译是将源语言语音翻译为目标语言文本的过程.传统序列到序列模型应用到语音翻译领域时,模型对于序列长度较为敏感,编码端特征提取和局部依赖建模压力较大.针对这一问题,本文基于Transformer网络构建语音翻译模型,使用深度卷积网络对音频频谱特征进行前编码处理,通过对音频序列进行下采样,对音频频谱中的时频信息进行局部依赖建模和深层特征提取,缓解编码器的建模压力,实现了汉越双语的语音到文本互译.实验结果表明,提出方法取得很好效果,相比基准系统获得了约19%的性能提升.  相似文献   

15.
刘宇宸  宗成庆 《软件学报》2023,34(4):1837-1849
语音翻译旨在将一种语言的语音翻译成另一种语言的语音或文本. 相比于级联式翻译系统, 端到端的语音翻译方法具有时间延迟低、错误累积少和存储空间小等优势, 因此越来越多地受到研究者们的关注. 但是, 端到端的语音翻译方法不仅需要处理较长的语音序列, 提取其中的声学信息, 而且需要学习源语言语音和目标语言文本之间的对齐关系, 从而导致建模困难, 且性能欠佳. 提出一种跨模态信息融合的端到端的语音翻译方法, 该方法将文本机器翻译与语音翻译模型深度结合, 针对语音序列长度与文本序列长度不一致的问题, 通过过滤声学表示中的冗余信息, 使过滤后的声学状态序列长度与对应的文本序列尽可能一致; 针对对齐关系难学习的问题, 采用基于参数共享的方法将文本机器翻译模型嵌入到语音翻译模型中, 并通过多任务训练方法学习源语言语音与目标语言文本之间的对齐关系. 在公开的语音翻译数据集上进行的实验表明, 所提方法可以显著提升语音翻译的性能.  相似文献   

16.
This paper describes our initial effort in developing a trilingual speech interface for financial information inquiries. Our foreign exchange inquiry system consists of: (i) monolingual and trilingual speech recognizers, which receive the user's spoken input in the form of microphone speech; (ii) a real-time data capture component which continuously updates a relational database from a financial data satellite feed; and (iii) a trilingual speech generation component, which generates English and Chinese text based on the raw financial data. The generated text is then transformed into spoken presentations. English text is processed by the FESTIVAL synthesizer system. Chinese text is sent to our syllable-based synthesizer, which employs a concatenative resequencing technique to produce spoken presentations in Putonghua or Cantonese. The speech interface is augmented with a visual display which aims to provide feedback to the user at all times during an interaction. Within the restricted scope of foreign exchange (FOREX), our recognition performance accuracies remain above 93%. Confusions across languages contributed significantly to our recognition errors, but most are confusions between the same currency/country names spoken in different languages. These errors are not detrimental with respect to data retrieval. Our concatenative re-sequencing technique reports the date, time and exchange rates of the input currency pair. A demonstration can be found at http://www.se.cuhk.edu.hk/hccl/demos/.  相似文献   

17.
王小林  王义 《计算机应用》2011,31(11):3075-3077
词语相似度计算在文本分类、问答系统、机器翻译、文本聚类等有着广泛的应用。词语相似度计算的研究工作一般都是基于《知网》的义原的层面上,根据义原之间的距离和义原本身的层次深度,进行词语相似度的计算。基于以上研究,提出了一种新的改进的词语相似度算法,首先根据义项中各类义原的个数不同,提出了一种新的变系数义项相似度计算方法;其次从词性的角度,认为词语义项中的不同词性对词语相似度的贡献度不同,剔除不同词性义项之间的组合。实验结果证明,改进的算法结果在原有基础上得到较好的提升,大幅度降低了相似度计算的复杂度,提高了运算效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号