首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
一直以来,汉语自动分词是公认的汉语信息处理瓶颈。反思现有汉语自动分词技术,发现均有隐舍两大假设:语言是规律的、词具有确定边界?这与语言的复杂性、组合性、动态性、模糊性特征不符。本文采用一种基于隐马尔科夫模型(HMM)的算法.通过CHMM(层叠形马尔科夫模型)进行分词,再做分层,既增加了分词的;隹确性,又保证了分词的效率。  相似文献   

2.
分词是汉语自然语言处理研究中非常重要的一个环节,在早先的研究中,最大熵模型和条件随机场(CRF)模型已经广泛运用到汉语自动分词的工作中。最大间隔马尔可夫网(M3N)模型是近年来由B.Taskar等[1]人提出的一种新型结构学习模型。该文尝试将这一模型用于汉语分词建模并进行实验,实验结果显示,基于给定的训练语料与测试语料,分词精度可以达到95%,表明基于最大间隔马尔科夫网的汉语分词方法可以取得较高的分词精度,是一种有效的汉语分词方法。  相似文献   

3.
汉语语言的无词曲分词模型系统   总被引:9,自引:0,他引:9  
本文主要从知识的自动获取出发,介绍了研究中的汉语语言的无词典分词模型系统。  相似文献   

4.
汉语语言的无词典分词模型系统   总被引:5,自引:0,他引:5  
本文主要人人知识的自动获取出发;介绍了研究中的汉语语言的无词典分词模型系统、通过算法的自然语言描述,阐述了模型的思想,分析了它与传统方法相比的优点,提出了要使系统达到实用还需解决的几个问题。  相似文献   

5.
基于歧义二叉树的汉语分词方法   总被引:7,自引:0,他引:7  
歧义问题是自动分词系统中要解决的主要问题之一。本文介绍一种新的汉语分词方法,它利用所建立的歧义二叉树,得到多种切分可能,通过分析歧义字段的特性,再结合规则处理和统计模型进行汉语分词。  相似文献   

6.
书面汉语自动分词是目前中文信息处理的一个公认难题,利用人工智能技术构造汉语自动分词专家系统可以说是一个方向。本文分析了歧义字段的产生根源,提出了将深部知识结构(DKS)技术用于自动分词专家系统的设想,并叙述了Aspect的分类及DKS推理,目的是试图探讨出一种新的书面汉语自动分词专家系统的实现方法。  相似文献   

7.
提出了一种新的汉语统计模型CNET,在此基础上提出了一种汉语无词典自动分词算法.该算法首先学习要进行处理的汉语语料,构建CNET,然后根据学习到的知识再去对原始语料进行分词.实验结果表明,该算法分词正确率在70%以上.  相似文献   

8.
书面汉语自动分词综述   总被引:9,自引:0,他引:9  
汉语分词是汉语言处理有别于拼音文字语言处理的特点之一。本文回顾了汉语自动分词的研究历史;对现有的四种计算机自动分词方法进行了评介;介绍了当前的研究现状和存在的困难。  相似文献   

9.
论汉语自动分词方法   总被引:39,自引:2,他引:37  
文章简单考查了目前中文信息处理领域中已有的几种主要的汉语自动分词方法, 提出自动分词方法的结构模型ASM(d,a,m),对各种分词方法的时间复杂度进行计算, 对于时间复杂度对分词速度的影响, 以及分词方法对分词精度的影响也进行了分析;同时指出并论证在自动分词中设立“ 切分标志”是没有意义的。  相似文献   

10.
首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述.接着论述了EM算法用于训练分词语言模型的可能性和局限性,为了解决EM算法严重依赖初始化条件的问题,用无监督训练方法建立概率模型,有效地解决了基于EM算法中文分词时可能存在的局部极值问题,提高分词精度.  相似文献   

11.
New words could benefit many NLP tasks such as sentence chunking and sentiment analysis. However, automatic new word extraction is a challenging task because new words usually have no fixed language pattern, and even appear with the new meanings of existing words. To tackle these problems, this paper proposes a novel method to extract new words. It not only considers domain specificity, but also combines with multiple statistical language knowledge. First, we perform a filtering algorithm to obtain a candidate list of new words. Then, we employ the statistical language knowledge to extract the top ranked new words. Experimental results show that our proposed method is able to extract a large number of new words both in Chinese and English corpus, and notably outperforms the state-of-the-art methods. Moreover, we also demonstrate our method increases the accuracy of Chinese word segmentation by 10% on corpus containing new words.  相似文献   

12.
现代汉语虚词知识库的研究   总被引:1,自引:0,他引:1  
现代汉语虚词在句法中所起的作用比较复杂,其个性较强,用法各异。目前已有的虚词研究成果大都是面向人用的,对虚词个性的描写难以避免主观性和模糊性,很难直接应用于自然语言处理的研究。本文从计算语言学的观点出发,根据目前已有的虚词研究成果以及对真实语料中虚词用法规律的考察,着力构建面向机器的现代汉语虚词用法信息词典和虚词用法规则库,旨在为现代汉语虚词用法的机器识别打下一定的数据基础。  相似文献   

13.
除了机器翻译,平行语料库对信息检索、信息抽取及知识获取等研究领域具有重要的作用,但是传统的平行语料库只是在句子级对齐,因而对跨语言自然语言处理研究的作用有限。鉴于此,以OntoNotes中英文平行语料库为基础,通过自动抽取、自动映射加人工标注相结合的方法,构建了一个面向信息抽取的高质量中英文平行语料库。该语料库不仅包含中英文实体及其相互关系,而且实现了中英文在实体和关系级别上的对齐。因此,该语料库将有助于中英文信息抽取的对比研究,揭示不同语言在语义表达上的差异,也为跨语言信息抽取的研究提供了一个有价值的平台。  相似文献   

14.
基于统计分词的中文网页分类   总被引:9,自引:3,他引:9  
本文将基于统计的二元分词方法应用于中文网页分类,实现了在事先没有词表的情况下通过统计构造二字词词表,从而根据网页中的文本进行分词,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别,新词不断出现,而且易于获得大量的同类型文本作为训练语料。这些都为实现统计分词提供了条件。本文通过试验测试了统计分词构造二字词表用于中文网页分类的效果。试验表明,在统计阈值选择合适的时候,通过构建的词表进行分词进而进行网页分类,能有效地提高网页分类的分类精度。此外,本文还分析了单字和分词对于文本分类的不同影响及其原因。  相似文献   

15.
中文文本自动校对技术研究及系统组成   总被引:1,自引:0,他引:1  
对文本自动校对国内外发展现状进行描述,针对中文文本出现错误的状况进行分析,提出了查错,纠错的两类自动校对技术;基于语料统计的词的匹配技术和基于自然语言理解的理解技术,给出了中文文本自动校对系统的组成及关键技术。  相似文献   

16.
王鉴全  季绍波 《计算机科学》2014,41(11):256-259
词语是中文文本的基本元素,汉语语言模型在中文文本挖掘中起关键作用。中文文本挖掘是高维度的数据处理技术,挖掘算法对维度的大小比较敏感,因此挖掘效果依赖于词库的质量。另外,现存的汉语语言模型一般都是基于统计的,比如N-gram语言模型以及各种改进模型都具有较高的计算复杂度。为降低语言模型的计算复杂度、提高词库的质量和构词效率,借鉴关联规则理论对中文词语进行定义,在此基础上构建Auto-word自动构词算法。该算法可以从大量中文语料库中动态地构造词表,并以此为基础进行中文文本挖掘工作。最后通过实验证明了提出的自动构词算法的有效性。  相似文献   

17.
目前已有的助词研究成果很难直接应用于自然语言处理的机器识别。在现代汉语词典、规则库、语料库“三位一体”的助词知识库基础上,采用基于规则的方法进行了现代汉语常用助词用法的自动识别。对比规则优化前后的实验结果证明,对用法的规则进行细化、扩充和调序可以有效地提高助词用法识别的准确率和召回率,减轻人工标注的工作量,提高大规模语料库的质量。  相似文献   

18.
在汉语的自然语言处理领域中,汉语的语义标注一直是一个重要的研究课题。在以往的研究中,大多使用手工的方式取得模板进行标注;采用抽取自动模板的方法,对汉语的语义进行标注,以解决对词的类别进行标注,以及对复合结构语义关系进行标注的问题。实验效果表明,对词的类别进行标注取得了在把维度降到363时的精确率为81.6406%的结果;对复合结构语义关系之间的标注也取得了比以往工作有所改进的成果。  相似文献   

19.
文字书写过程描述字是文字书写自动教学系统教学知识点的核心字段。针对多语源导致知识点数据类型多、计算结构复杂及知识量大等特点,提出文字书写过程描述字自动生成方法。描述字由主导笔顺和约束笔顺组成;给出各类要素元编码空间关系;设计与实现描述字自动生成算法。汉字、英文、汉语拼音等文种文字融合实验及其分析表明,描述字结构能满足不同文种文字书写过程表达,生成方法能准确识别各种知识要素,与手工法相比不但提高了工作效率、知识的准确率,而且有效降低了信息冗余度。  相似文献   

20.
基于分解与动态规划策略的汉语未登录词识别   总被引:31,自引:6,他引:25  
未登录词的识别是汉语自动分词中的主要问题。本文以对中国人名,中国地名和外国译名进行整体识别为目标,采用分解处理策略降低了整体处理难度,并使用动态规划方法实现了最佳路径的搜索,较好地解决了未登录词之间的冲突问题。通过对真实语料识别的测试,证明该方法可以全面提高未登录词识别的正确率和召回率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号