首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对传统的语音识别系统采用数据驱动并利用语言模型来决策最优的解码路径,导致在部分场景下的解码结果存在明显的音对字错的问题,提出一种基于韵律特征辅助的端到端语音识别方法,利用语音中的韵律信息辅助增强正确汉字组合在语言模型中的概率。在基于注意力机制的编码-解码语音识别框架的基础上,首先利用注意力机制的系数分布提取发音间隔、发音能量等韵律特征;然后将韵律特征与解码端结合,从而显著提升了发音相同或相近、语义歧义情况下的语音识别准确率。实验结果表明,该方法在1 000 h及10 000 h级别的语音识别任务上分别较端到端语音识别基线方法在准确率上相对提升了5.2%和5.0%,进一步改善了语音识别结果的可懂度。  相似文献   

2.
为提高中文语音识别系统的识别准确率,研究在卷积神经网络的基础上提出了一种中文语音识别人机交互系统。在该系统中的声学模型中融入了残差网络和maxout函数,以此提高声学模型的性能。对研究提出的基于链接时序分类准则的深度卷积网络模型进行性能对比发现,该模型的绝对误差值为3.6%,低于其他对比模型。该结果说明,优化后的CTC-DCNN(maxout)模型的识别性能更好。故利用该模型作为中文语音识别系统的声学模型可以有效地提高系统的识别准确率,保证其人机互动的准确性,为中文语音识别领域提供新的方法。  相似文献   

3.
针对电网调度领域实体识别准确率较低的问题,提出一种融合多头注意力机制和双向长短时记忆网络的电网调度领域中文命名实体识别方法。利用词向量表示电网调度语音识别后语句,并将生成的词向量序列输入双向长短时记忆网络(BiLSTM)挖掘其上下文语义特征,引入多头注意力机制重点关注文本中的实体词,挖掘其隐藏特征,同时通过条件随机场(CRF)计算序列标签的联合概率标注出实体识别结果。根据电网调度语音识别后文本特点自建标注数据集,并将电网调度语音识别文本中的命名实体细粒度划分为参数、设备、操作、系统、组织5个类别进行实验。其结果表明,该方法对电网调度领域实体识别具有更高的准确率和召回率,且F1值可达到93.63%,切实解决了电网调度领域实体识别任务中标注数据稀少和精度较低的问题,有助于电网调度领域知识图谱的构建。  相似文献   

4.
为解决小样本中文语音情感识别准确度低的问题,提出一种基于残差网络改进的中文语音情感识别网络结构AResnet。使用时域增强和频域增强生成更复杂的模拟样本扩充语音情感数据,将注意力机制引入至残差网络(residual networks)中,关注谱图中情感特征分布,提升情感识别率。在CASIA中文语音数据集上训练、测试,其结果显示,对比DCNN+LSTM、Trumpt-6网络结构,识别率分别提升约14.9%、3%,验证了AResnet在中文语音情感识别中的有效性。该方法也在英语语音数据集eNTERFACE’05上进行实验,识别准确率为92%,验证了AResnet有较好的泛化能力。  相似文献   

5.
命名实体识别作为自然语言处理中一项十分基础的任务,其目的是从一段用自然语言描述的文本中识别出相应的实体及类型。知识图谱作为以三元组形式存在的外部知识,已经在很多自然语言处理任务中得以应用并取得了良好效果。文中提出了一种基于知识图谱信息增强的注意力对齐命名实体识别方法,首先通过嵌入层和注意力机制嵌入知识图谱信息,获取知识图谱三元组信息的表示;其次通过BERT-BiLSTM获取句子的上下文表示;然后通过一种注意力对齐模块分配三元组权重融合知识图谱信息与句子信息的表示;最后通过softmax控制融合后的表示向量的预测输出,进而获取实体的标签。该方法有效避免了因知识图谱的融合而改变原句子的语义信息,同时也使得句子中的词向量具有丰富的外部知识。所提方法在中文通用数据集MSRA和医疗领域专用数据集Medicine上的F1值分别达到了95.73%和93.80%,相比基线模型提升了1.21%和1.3%。  相似文献   

6.
音字转换中分层解码模型的研究与改进   总被引:1,自引:0,他引:1  
音字转换是中文信息处理领域的一个重要研究方向,在语音识别、中文拼音输入中都有广泛应用。该文对音字转换中的拼音流切分歧义问题做了分析与研究,发现传统的分层隐马尔可夫解码模型在解决这个问题时存在缺陷,提出了利用语言模型知识辅助拼音流切分来改进已有的分层模型的思想。实验表明,与传统方法相比,该文的方法可以将首字准确率提高3%。  相似文献   

7.
为提高智能语音交互机器人语音交互的准确率,提出一种基于意图识别的机器人智能英语语音交互方法。通过引入Glove_BiGRU_Self-attention分类预测模型构建意图识别功能模块,并采用ROS分布式架构对系统功能模块进行整合,实现人机的智能语音交互。仿真结果表明,采用所提方法进行的语音意图识别,具有更高的准确率,相较于基于DCNN模型、基于CNN-LSTM模型与基于单向构建的GRU-Self-attention模型的意图识别方法,识别准确率分别高出8.03%、4.07%和2.14%,具有更好的识别效果;在特征提取上,训练时间较传统基于BiLSTM模型的提取方法,BiGRU的训练时间缩短了4倍,训练效率更高。实验结果表明,采用所提意图识别方法搭建的语音交互系统,对用户英语语音指令的识别准确率和识别效率依然拥有较好的结果,识别平均准确率达到了89.72%,识别时间均在0.35 s之内,证明所提方法可以应用于实际语音交互之中。应用实验表明,采用基于意图识别方法搭建的智能语音交互机器人,无论是在问答交互还是控制命令上,都可以准确对用户英语指令进行识别,根据用户要求进行相关回答或完成相应动...  相似文献   

8.
为增强端到端语音识别模型的鲁棒性和特征提取的有效性,对瓶颈特征提取网络进行研究,提出采用基于联合优化正交投影和估计的端到端语音识别模型.通过连接时序分类损失函数训练瓶颈特征提取网络,摆脱对语言学和对齐信息的先验知识的依赖,在解码输出部分添加注意力机制,实现两种不同的端到端模型的融合.在中文数据集AISHELL-1上的实验结果表明,与传统识别模型相比,该改进端到端模型更适用于带噪语音的识别任务.  相似文献   

9.
基于语音参数模型的语音隐藏算法   总被引:13,自引:0,他引:13  
陈亮  张雄伟 《计算机学报》2003,26(8):974-981
基于语音参数模型,该文提出一种将保密语音隐藏在公开语音中的信息隐藏算法.首先将保密语音经混合激励线性预测(MELP)编码和纠错编码形成隐藏信息.然后根据瞬态互相关基音周期检测算法确定频域嵌入点,并通过修改对应的DFT系数来隐藏信息.提取时按同样方法确定嵌入点恢复隐藏信息,并经MELP解码还原保密语音.实验结果表明嵌入信息后,中间语音的分段平均信噪比接近60dB,并且在受到压缩、滤波等攻击时具有较强的鲁棒性.算法为信息安全和数字水印领域研究开辟了一条新的途径.  相似文献   

10.
为解决卷积神经网络在中文语音识别中识别准确率低、鲁棒性差的问题,提出一种基于双路卷积神经网络的声学建模方法。利用多尺度学习方法提取多尺度特征信息;将软阈值非线性转换层和注意力机制进行融合后嵌入残差网络,减轻网络梯度问题,加强网络特征信息传递,提高特征学习效果;采用连接时序分类技术分类,简化语音识别流程。实验结果表明,该模型与传统识别模型相比,词错误率降低了7.52%,在3种噪声环境下,错误率也低于传统模型。  相似文献   

11.
针对普通话测试中噪音干扰问题,提出了一种基于小波变换的普通话智能测试系统,对噪音环境下的语音信号进行准确辨别。为了确保本文系统语音识别的准确率,通过隐马尔可夫统计模型叠加神经网络,采用模式匹配的方式搭建了整体语音辨别系统。为了降低噪音对语音信号的影响,在系统中引入小波分析对信号进行去噪处理,同时引入了梅尔频率倒谱系数提取信号特征。实验证明,相较于未改进的传统系统,基于小波变换改进的普通话智能测试系统,在有噪声环境下,四次仿真的平均识别准确率要高7.2%,平均识别时间缩短了1.1 s,识别效果大幅提高;相较于基于DNN的普通话识别系统和基于CTC准则的普通话识别系统,基于小波变换改进的普通话智能系统,在4种不同噪音环境下,语音识别准确率更高,尤其面对频谱更集中的噪音,系统的识别准确率高达90.7%,分别较另外两种系统高出7.5%和6.6%,具有更好的实用性。  相似文献   

12.
小麦病虫害中文命名实体识别是构建该领域知识图谱的关键步骤,针对小麦病虫害领域训练数据匮乏、实体结构复杂、实体类型多样及实体分布不均匀等问题,在充分挖掘隐含知识的前提下,采用了两种数据增广方法扩充句子语义信息,构建了小麦病虫害实体识别语料库WpdCNER及其领域词典WpdDict,并在领域专家的指导下定义了16类实体;同时提出了一种基于规则修正的中文命名实体识别模型WPD-RA,该模型基于轻量级BERT+双向长短期记忆网络+条件随机场(ALBERT+BiLSTM+CRF)进行实体识别,并在识别后定义具体规则校准实体边界。融合规则后的ALBERT+BiLSTM+CRF模型取得了最好的识别结果,准确率为94.72%,召回率为95.23%,F1值为94.97%,相比不加规则的识别结果,其准确率、召回率、F1值分别增加了1.71个百分点、0.34个百分点、1.03个百分点。实验结果表明,该方法能有效识别小麦病虫害领域命名实体,识别性能优于其他模型,为食品安全、生物等其他领域命名实体识别提供了一种可借鉴的思路。  相似文献   

13.
针对传统英语多语音识别准确率低的问题,提出一种基于轻量化神经网络的英语语音识别及控制系统。其中,首先采用MFCC方法对输入语音特征进行提取;然后以时延神经网络TDNN为基础网络,通过步进裁剪得到轻量化的神经网络;最后将提取到的多语音特征输入神经网络中进行识别。结果表明,经过轻量化的神经网络其大小由77 M降低至21 M;在Dev93和Eval92数据集上的测试,其WER值分别为5.12%和3.99%,相较于直接裁剪和未裁剪的WER值更低,英语语音识别准确率更高。由此得出,本研究构建的轻量化神经网络可用于多语音的识别,进而可拓展至包含英语交流机器人在内的领域。  相似文献   

14.
基于发音特征的声效相关鲁棒语音识别算法   总被引:1,自引:0,他引:1  
晁浩  宋成  彭维平 《计算机应用》2015,35(1):257-261
针对声效(VE)相关的语音识别鲁棒性问题,提出了基于多模型框架的语音识别算法.首先,分析了不同声效模式下语音信号的声学特性以及声效变化对语音识别精度的影响;然后,提出了基于高斯混合模型(GMM)的声效模式检测方法;最后,根据声效检测的结果,训练专门的声学模型用于耳语音识别,而将发音特征与传统的谱特征一起用于其余4种声效模式的语音识别.基于孤立词识别的实验结果显示,采用所提方法后语音识别准确率有了明显的提高:与基线系统相比,所提方法5种声效的平均字错误率降低了26.69%;与声学模型混合语料训练方法相比,平均字错误率降低了14.51%;与最大似然线性回归(MLLR)自适应方法相比,平均字错误率降低了15.30%.实验结果表明:与传统谱特征相比发音特征对于声效变化更具鲁棒性,而多模型框架是解决声效相关的语音识别鲁棒性问题的有效方法.  相似文献   

15.
李伟  吴及  吕萍 《计算机应用》2010,30(10):2563-2566
为了克服语音识别中单遍解码词图生成算法速度较慢的缺点,提出一种基于前后向语言模型的两遍快速解码算法。两遍解码分别采用前向与后向语言模型,同时通过优化以减少前后向语言模型不匹配对识别结果造成的影响。实验证明,该算法在保持识别准确率的基础上有效地提升了解码速度。  相似文献   

16.
传统声纹识别人控制系统识别准确率低,存在语音识别噪声鲁棒性问题。针对上述问题,基于非单调共轭梯度算法设计了一种新的声纹识别机器人控制系统,采用BioVoice 2.0 标准声纹采集器采集数据,提取声纹特征,根据提取的声纹特征建立模型库,同时引用了两个声纹数据采集终端,型号分别是TMC104-B和TMC104,选用型号为AS-MrobotR的机器人配合采集器和采集终端实现工作。在Windows平台下使用C/C+语言研究了一种专用的程序,在程序内部添加mde-api数据库,完成训练程序和识别程序。实验结果表明,基于非单调共轭梯度算法的声纹识别机器人控制系统能够很好地解决语音识别噪声鲁棒性问题,在有噪声环境下识别准确率提高15.24%,在无噪声环境下识别准确率提高21.55%。  相似文献   

17.
传统模型较难识别出数量庞大的数据,为了提高对日语语音识别系统的准确率,此次研究综合了语音识别与深度学习的基本理论。在此基础上,提出使用Fbank特征作为声学模型的输入特征,构建了基于双向长短期记忆网络(Bi-directional Long-Short Term Memory, BiLSTM)的日语语音识别系统。结果表明,预加重后的日语语音信号能量变化幅度在-35 dB至0 dB的范围内,频谱分布更加平衡。在经过多轮次训练后,BiLSTM-CTC模型的词错率比其他两种模型分别低了11.03%、3.63%,具有更加优越的性能。在使用Fbank特征时,研究模型的词错率比使用梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients, MFCC)特征时低。这表明采用Fbank特征能够提高日语语音识别的精度。此次研究不仅对深度学习技术的发展提供重要的理论,还对以深层神经网络为基础的语音识别具有重要的现实意义。  相似文献   

18.
针对舰艇指挥训练系统的特点,提出了一种利用语音识别技术提高其训练效率的方法;首先分析了舰艇指挥指令的语言特点,然后研究了基于Sphinx平台的汉语连续语音识别的相关问题,包括声学模型的训练、语言模型的训练及语音识别引擎等;最后设计并实现了一个非特定人,中等专用词汇量的连续汉语语音识别系统;实验采用了一定数量的数字和专用词汇进行验证,结果表明,经过声学模型训练后,该系统的识别率有较大提高;该方法对提高舰艇指挥训练系统的自动化水平具有一定的指导意义。  相似文献   

19.
为进一步提升语音测谎性能,提出了一种基于去噪自编码器(DAE)和长短时记忆(LSTM)网络的语音测谎算法。首先,该算法构建了优化后的DAE和LSTM的并行结构PDL;然后,提取出语音中的人工特征并输入DAE以获取更具鲁棒性的特征,同时,将语音加窗分帧后提取出的Mel谱逐帧输入到LSTM进行帧级深度特征的学习;最后,将这两种特征通过全连接层及批归一化处理后实现融合,使用softmax分类器进行谎言识别。CSC(Columbia-SRI-Colorado)库和自建语料库上的实验结果显示,融合特征分类的识别准确率分别为65.18%和68.04%,相比其他对比算法的识别准确率最高分别提升了5.56%和7.22%,表明所提算法可以有效提高谎言识别精度。  相似文献   

20.
知识图谱(KG)是实现领域问答系统的关键技术之一,能够降低客服成本,推进客户自助服务的智能化,具有较大的商用价值和研究意义。针对基于KG问答系统中存在的中文问题表达模糊、线上服务运维成本高的问题,融合领域特征知识图谱的电网客服问答系统(HDKG-QA),其能基于LSTM模型识别实体/断言,基于主题比较的语义增强方法准确寻找外部知识,使用启发式规则优化答案候选集,并定期根据ILP求解器设置全局KG的更新策略。HDKG-QA能够达到较高的实体/断言识别准确率,自动将领域知识映射为本地KG,快速实现服务知识库的在线更新,达到以较低的响应延迟实现高准确率的回答。根据国网重庆市电力公司信息通信分公司的实际客服问答数据集对本系统进行验证,实验结果表明通过引入LSTM和语义增强方法,问答系统的准确率提高了17%;基于启发式规则的优化答案排序策略将准确率提高了8%;通过引入ILP求解器,在保障同样准确率的情况下,问答响应延迟降低了9%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号