排序方式: 共有70条查询结果,搜索用时 15 毫秒
41.
汉语信息熵和语言模型的复杂度 总被引:5,自引:2,他引:3
本文介绍了估计汉语信息熵的方法,并通过对大量语料的统计,给出了汉语信息熵的一个上界-5.17比特/汉字。 相似文献
42.
连续语音识别系统中的One pass搜索方法 总被引:2,自引:0,他引:2
文中介绍了在THSP系统上如何实现基于beam viterbi搜索的one pass方法,并且结合one pass方法的特点,对识别方式分别从声学层和语言层进行了一些改进。一方面,为了从声学层传递尽可能多的信息给语言层,提出了对三长度假设及静音处理方式的改进。另一方面,利用语言层知识来指导声学层剪枝。最后,文中就实验结果探究了基于beam viterbi搜索的one pass方法相对于two pass方法的优劣,并指出,在系统开销基本没有增加的前提下,one pass方法较two pass方法的正确率有普遍提高。 相似文献
43.
44.
基于Trigger的长距离语言模型 总被引:4,自引:0,他引:4
文章利用Trigger模型描述长距离的词与词之间的关系,并将其与目前通用的N元文法语言模型相结合,同时通过引入参数———置信度来提高Trigger模型得分的可靠性,在汉语自动语音识别系统中实现了一个可实用化的长距离语言模型。实验表明,二者的结合在一定程度上克服了N元文法语言模型描述距离小于N的缺点,提高了系统的识别率。 相似文献
45.
46.
自动文摘技术应尽可能获取准确的相似度以确定句子或段落的权重,但目前常用的基于向量空间模型的计算方法却忽视句子、段落、文本中词的顺序.提出了一种新的基于相邻词序组的相似度度量方法并应用于文本的自动摘要,采用基于聚类的方法实现了词序组的向量表示并以此刻画句子、段落、文本,通过线性插值将基于不同长度词序组的相似度结果予以综合.同时,提出了新的基于含词序组重要性累计度的句子或段落的权重指标.实验证明利用词序信息可有效提高自动文摘质量. 相似文献
47.
在汉语语音识别中应用声调信息的研究 总被引:6,自引:0,他引:6
声调信息在汉语普通话语音识别系统中,具有非常重要的意义。文章实现了声调特征提取的算法,并主要研究了如何应用这些特征,才能最大限度地发挥声调信息的作用,提高识别系统的性能。实验结果表明,声调特征可以和识别系统原有的特征很好地结合,合理应用声调信息能有效地提高识别系统的性能,系统的误识率下降了22.26%。 相似文献
48.
基于《知网》的中文信息结构抽取研究 总被引:2,自引:0,他引:2
文章提出了一种在真实文本中抽取中文信息结构的方法—利用大规模基于语义依存关系的语料库对《知网》的中文信息结构模式进行训练,用这些带概率的模式作为规则建立部分依存分析器,从而从真实文本中最大限度地抽取符合知网中文信息结构定义的短语。该研究除了对将要建立的基于语义依存关系的语言模型是个有益的补充外,对于文本理解、对话系统甚至语音合成中的重音预测、韵律建模等等方面都有十分广阔的应用前景。 相似文献
49.
利用空间相关性的改进HMM模型 总被引:1,自引:0,他引:1
语音识别领域中所采用的经典HMM模型,忽略了语音信号间的相关信息.针对这一问题,利用语音信号的空间相关性对经典HMM模型进行补偿,得到一种改进模型.该方法通过空间相关变换,描述了当前语音特征与历史数据之间的空间相关性,从而对联合状态输出分布进行建模.改进模型的解码算法利用空间相关性变换的参数更新算法在经典ⅧⅥM的解码算法基础上得到.实验结果表明,上述方法在说话人无关连续语音识别系统上获得了明显的性能改进. 相似文献
50.
基于主题的语言模型自适应方法应尽可能提高语言模型权重系数的更新速度并降低语言模型的调用量以满足语音识别实时性要求。本文采用基于聚类的方法实现连续相邻二元词对的量化表示并以此刻画语音识别预测历史和各个文本主题中心,依据语音识别历史矢量和各个文本主题中心矢量的相似度更新语言模型权重系数并摒弃全局语言模型。同传统的基于EM算法的自适应方法相比,实验表明该方法明显提高了语音识别性能和实时性,识别错误率相对下降5.1% ,说明该方法可比较准确地判断测试内容所属文本主题。 相似文献