首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 875 毫秒
1.
隐马尔可夫模型(HMM)基于n-元语法的标注效果虽然不错,但由于预测信息的不足,对汉语的词性标注,特别是未登录词的词性标注精度影响很大。而最大熵模型使用特征的形式,有效的利用了上下文信息,在一定的约束条件下可以得到与训练数据一致的概率分布,即使是未登录词,由于其丰富的上下文信息,对它的词性标注也起到了很好的预测作用。实验结果证明最大熵方法取得了较好的标注效果。  相似文献   

2.
提出一种基于N元语法的汉语自动分词系统,将分词与标注结合起来,用词性标注来参与评价分词结果.首先基于词典和一元语法统计模型生成N个最优结果作为候选集;然后对候选集进行基于二元语法统计模型的词性标注,最后利用对文本的上下文"理解"信息来确定最佳切分结果.实验结果表明:此方法通过词性标注的反馈有效提高了分词正确率,词性标注对分词有反馈作用.  相似文献   

3.
基于条件随机场的汉语词性标注   总被引:1,自引:0,他引:1  
近年来条件随机场广泛应用于各类序列数据标注中,汉语词性标注中应用条件随机场对上下文建模时会扩展出数以亿计的特征,在深入分析特征产生机理的基础上对特征模板集进行了优化,采用条件随机场进一步研究了汉语词性标注中设定的特征模板集、扩展出的特征数、训练后模型大小、词性标注精度等指标之间的关系.实验结果表明,优化后的特征模板集在模型训练时间、训练后模型大小、标注精度等指标上达到了整体最优.  相似文献   

4.
动词细分类属于词性标注的一部分,是自然语言处理的重要内容之一。基于条件随机场在分词和词性标注的基础上对动词进行了更细致的分类。根据动词的语言环境构建条件随机场模型,实验结果表明该方法取得了较高的准确率,最高取得了98.11的F值。  相似文献   

5.
自然语言处理中机器对文本词性标注常用的方法有:基于规则方法、基于统计的方法和基于统计和规则相结合的方法三种。文章对三者用于藏文词性自动标注时在描述方式、标注效率和标注正确率等方面进行了对比研究分析,结果显示基于规则和统计相结合的方法在藏文词性自动标注中具有明显的优势,是目前较理想的方法,此方法用于藏文词性自动标注可以较大地提高正确率。  相似文献   

6.
该文以处理大规模真实文本为目标,把句法分析分解为分词/词性标注、短语识别两个部分。首先提出了一个一体化的分词/词性标注方法,该方法在隐马尔科夫模型(HMM)的基础上引入词汇信息,既保留了HMM简单快速的特点,又有效提高了标注精度;然后应用中心驱动模型进行短语识别,这是一个词汇化的英文句法分析模型,该文将其同分词/词性标注模型结合进行汉语句法分析。在公共的测试集上对句法分析器的性能进行了评价,精确率和召回率分别为77.57%和74.96%,这一结果要明显好于目前唯一可比的工作。  相似文献   

7.
汉语词性自动标注工作是汉英机器翻译的基础。在汉语的词性标注中重点要解决的是兼类词的消歧问题。本文采用了归纳学习算法与覆盖算法相结合的方法,使用了词性和语义两种特征提出了一种解决兼类词问题的方法,并论述了该方法的优点。  相似文献   

8.
基于无向图序列标注模型的中文分词词性标注一体化系统   总被引:3,自引:0,他引:3  
在中文词法分析中,分词是词性标注必须经历的阶段。为了能在分词阶段就充分利用词性标注的信息和减少两阶段错误的累计,最好的方法是将两个阶段,整合到一个架构中。该文以无向图模型为基础,将分词和词性标注有机地统一在一个序列标注模型中。由于可以采用更深层次的依赖关系作为特征,一体化系统在1998年人民日报语料上取得了97.19%的分词精确率和95.34%的词性标注精确率,是目前同类系统,在这一语料上取得的最好结果。  相似文献   

9.
图像分类作为计算机视觉领域中的重要研究方向之一,应用领域非常广泛.基于深度学习的图像分类技术取得的成功,依赖大量的已标注数据,然而数据的标注成本往往是昂贵的.主动学习作为一种机器学习方法,旨在以尽可能少的高质量标注数据达到期望的模型性能,缓解监督学习任务中存在的标注成本高、标注信息难以大量获取的问题.主动学习图像分类算法根据样本选择策略,从未标记样本数据集合中选择出信息量丰富,对分类模型训练贡献更高的样本进行标注,以更新已标注训练数据池,如此循环直至满足给定的停止条件或模型标注预算耗尽.本文对近年来提出的主动学习图像分类算法进行了详细综述,并根据所用样本数据处理及模型优化方案,将现有算法分为三类:基于数据增强的算法,包括利用图像增广来扩充训练数据,或者根据图像特征插值后的差异性来选择高质量的训练数据;基于数据分布信息的算法,根据数据分布的特点来优化样本选择策略;优化模型预测的算法,包括优化获取和利用深度模型预测信息的方法、基于生成对抗网络和强化学习来优化预测模型的结构,以及基于Transformer结构提升模型预测性能,以确保模型预测结果的可靠性.此外,本文还对各类主动学习图像分类算法...  相似文献   

10.
基于类图语义框架的中文需求分析方法   总被引:1,自引:0,他引:1       下载免费PDF全文
利锦标  李童  刘璘 《电子学报》2011,39(Z1):94-98
需求文本的分析和建模是需求工程中一个重要环节,其获取建模过程的自动化也渐渐成为了需求工程中一项重要研究内容.本文针对中文自然语言处理和需求分析中的难点,提出了基于面向类图语义框架的中文需求类图半自动建模方法.该建模方法的流程包括:文本分词与词性标注,基于语义框架的类图模型提取,基于问卷的模型改进和手动模型编辑.该方法具...  相似文献   

11.
方浩  许鸿文  蔡益宇 《通信技术》2008,41(5):157-159
中文信息处理中统计方法的应用越来越广泛.为了更好地利用统计方法进行中文词义标注,文中对隐马尔可夫模型进行了改进研究,提出了使用基于语义格改进的隐马尔可夫模型.通过应用线性插值方法来计算改进的模型参数,HowNet中文知识库在中文词义标注中应用此模型,最后得到了较好的实验结果,证明了该方法的有效性.  相似文献   

12.
基于HMM/VQ的认人的中等词表连续语音识别   总被引:2,自引:2,他引:0  
本文讨论基于隐马尔可夫模型(HMM)和矢量量化(VQ)的连续语音识别方法。用这种方法,对每个单词作成一个HMM,对多个模型组合成的状态转移网络搜索其状态转移的最佳路径,从而实现不预先进行单词切分的连续语音的识别,使用有限态文法约束及其它一些改善识别性能的措施,演示系统能识别特定人的18种英语句式,150个单词,用312个话句(共有2710个单词)进行测试,识别延迟时间为发音时长的62%,发音速度平均为每秒2.32个单词,单词识准率为97.3%。  相似文献   

13.
张引  张斌  高克宁  郭朋伟  孙达明 《电子学报》2012,40(12):2353-2359
在标签系统中,用户使用资源以及标签的习惯受到自身自主意识的影响.当前的标签个性化推荐方法缺乏对此类自主意识信息的描述,限制了个性化推荐的效果.通过采用类似LDA的概率模型,建模了用户的资源使用以及标签使用两方面的自主意识信息,实现了面向用户自主意识的标签推荐.模型的参数使用基于吉布斯抽样的方法进行估计,为快速高效计算模型参数提供了可能.实验结果显示该方法可以提供更高质量的标签个性化推荐结果.  相似文献   

14.
Tracking of cardiac motion using magnetic resonance tagging has attracted increasing attention in recent years. Several methods for tagging the cardiac tissue and tracking the motion of the tags have been developed. However, the choice of tag pattern that minimizes tracking error has received less attention. In this paper, we are concerned with the optimal tagging and acquisition of MR tagged images for cardiac motion analysis. We formulate the measurement of tissue deformation as a multidimensional parametric estimation problem which can be solved using the nonlinear least squares estimator. Along with this, we derive the Cramer-Rao lower bound (CRLB) on the average estimation error variance. We then show that under certain conditions a complex sinusoidal tag shape minimizes the CRLB. We validate our results with computer simulations. Finally, based on the previous findings, we make recommendations concerning the most desirable imaging strategy for images tagged with a complex sinusoidal tag pattern.  相似文献   

15.
说话人差异是影响语言辨识系统性能的一个重要方面.采用说话人聚类技术对训练数据进行了预分类,以此为基础训练各种语言模型,得到聚类后的语言辨识系统.高斯混合模型、高斯混合模型-全局背景模型和遍历隐马尔可夫模型3种语言模型的实验证明,这种方法是有效的,它普遍地减小了说话人差异对语言辨识的影响,提高了语言辨识率.  相似文献   

16.
传统的系统可靠性分析需要检测系统中所有元件的故障状态,并不适用予系统的定期维护和保养检查。隐马尔可夫模型(HMM)是一种双重随机过程,能够解决随机不确定问题。通过对系统关键点的检测,经过复杂的网络运算综合得到系统状态的检测参数,给出了实现检测的相关网络模型以及相应的算法。  相似文献   

17.
As a kind of statistical method, the technique of Hidden Markov Model (HMM) is widely used for speech recognition. In order to train the HMM to be more effective with much less amount of data, the Subspace Distribution Clustering Hidden Markov Model (SDCHMM), derived from the Continuous Density Hidden Markov Model (CDHMM), is introduced. With parameter tying, a new method to train SDCHMMs is described. Compared with the conventional training method, an SDCHMM recognizer trained by means of the new method achieves higher accuracy and speed. Experiment results show that the SDCHMM recognizer outperforms the CDHMM recognizer on speech recognition of Chinese digits.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号