首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
一种中文分词词典新机制——双字哈希机制   总被引:42,自引:2,他引:42  
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制——双字哈希机制,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下,提高了中文分词的速度和效率。  相似文献   

2.
汉语自动分词技术的现状及发展趋势   总被引:11,自引:0,他引:11  
尹锋  林亚平 《软件世界》1996,(12):80-84
一、汉语自动分词的提出与困难 汉语自动分词是80年代初期中文信息处理领域提出的重大课题,分为书面汉语分词和口词分词,前者指对键盘输入或以光电识别输入计算机的汉语进行处  相似文献   

3.
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说明几种词典机制的效率差异来证明所提出分词词典机制的有效性。  相似文献   

4.
汉语自动分词技术研究   总被引:1,自引:0,他引:1  
汉语自动分词是中文信息处理的基本问题.从分词的基本理论出发,对近年来中文分词研究的现状进行介绍,指出了能够大幅度提高未登录词识别性能的分词方法将是未来汉语自动分词技术的发展趋势,分析了分词中存在的两个困难及其解决方法.  相似文献   

5.
一种汉语分词方法   总被引:40,自引:4,他引:36  
本文对现有的汉语分词方法作了概述,然后,提出了一种新的汉语分词方法--单扫描分词方法,并对单扫描汉语分词方法的时间复杂度作了分析。分析表明,单扫描分词方法的时间复杂度为2.89,比现有的分词方法的时间复杂度12.32小得多。单扫描分词方法无论在理论,还是在实践上都有重大的意义。  相似文献   

6.
首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述.接着论述了EM算法用于训练分词语言模型的可能性和局限性,为了解决EM算法严重依赖初始化条件的问题,用无监督训练方法建立概率模型,有效地解决了基于EM算法中文分词时可能存在的局部极值问题,提高分词精度.  相似文献   

7.
书面汉语自动分词是目前中文信息处理的一个公认难题,利用人工智能技术构造汉语自动分词专家系统可以说是一个方向。本文分析了歧义字段的产生根源,提出了将深部知识结构(DKS)技术用于自动分词专家系统的设想,并叙述了Aspect的分类及DKS推理,目的是试图探讨出一种新的书面汉语自动分词专家系统的实现方法。  相似文献   

8.
尹锋  林亚平 《软件世界》1996,(12):76-80
神经网络研究从40年代信息科学的开创时期诞生到现在走过了半个世纪的曲折历程后,迎来了一个空前活跃的新的发展时期,成为现代脑神经科学、数理科学及信息科学等综合研究领域的共同科学前沿之一。 自然语言自动分词与处理的研究在国外发端于50年代末,现已获得很大进展,我国汉语自动分词的研究起步较晚,始于80年代初,近几年来取得明显成效。但由于汉语结构上的复杂性和分词理论与技术等诸多原因的影响,使得汉语自动分词未能取得重大的实质性突破。 采用包括神经网络、专家系统在内的人工智能技术进行汉语自动分词研究,是当前中文信息处理领域的热门话题,也是该领域的一个重要发展方向。 为帮助广大读者了解汉语自动分词的研究进展以及神经网络等人工智能技术在汉语言处理方面的应用情况,本刊约请尹锋和林亚平同志撰写了《神经网络的发展及其在汉语言处理方面的应用》、《汉语自动分词技术的现状及发展趋势》、《神经网络汉语自动分词技术》和《神经网络专家系统集成式汉语自动分词技术》等四篇文章。尹锋和林亚平同志多年从事计算机科研与教学工作,发表了一系列成果和论文,近年来,致力于神经网络和汉语自动分词研究,这几篇文章反映了他们的部分研究成果。 《神经网络的发展及其在汉语言处理方面的应用》  相似文献   

9.
中文信息处理中自动分词技术的研究与展望   总被引:22,自引:0,他引:22  
汉语自动分词是中文信息处理的关键技术,已经成为中文信息处理发展的瓶颈。文章介绍了当前自动分词技术的研究状况,对各种分词算法进行了介绍,并对各种算法进行了比较和讨论。最后,对汉语自动分词技术的发展进行了展望。  相似文献   

10.
在特定领域的汉英机器翻译系统开发过程中,大量新词的出现导致汉语分词精度下降,而特定领域缺少标注语料使得有监督学习技术的性能难以提高。这直接导致抽取的翻译知识中出现很多错误,严重影响翻译质量。为解决这个问题,该文实现了基于生语料的领域自适应分词模型和双语引导的汉语分词,并提出融合多种分词结果的方法,通过构建格状结构(Lattice)并使用动态规划算法得到最佳汉语分词结果。为了验证所提方法,我们在NTCIR-10的汉英数据集上进行了评价实验。实验结果表明,该文提出的融合多种分词结果的汉语分词方法在分词精度F值和统计机器翻译的BLEU值上均得到了提高。  相似文献   

11.
一种规则与统计相结合的汉语分词方法   总被引:20,自引:2,他引:18  
汉语自动分词是中文信息处理领域的一项基础性课题,对现有的汉语分词方法作了简单的概述和分析,然后提出了一种新的分词方法,该方法基于一个标注好了的语料库,并且结合了规则和语料库统计两种分词方法。  相似文献   

12.
分词是汉语自然语言处理研究中非常重要的一个环节,在早先的研究中,最大熵模型和条件随机场(CRF)模型已经广泛运用到汉语自动分词的工作中。最大间隔马尔可夫网(M3N)模型是近年来由B.Taskar等[1]人提出的一种新型结构学习模型。该文尝试将这一模型用于汉语分词建模并进行实验,实验结果显示,基于给定的训练语料与测试语料,分词精度可以达到95%,表明基于最大间隔马尔科夫网的汉语分词方法可以取得较高的分词精度,是一种有效的汉语分词方法。  相似文献   

13.
提出一种新的书面汉语自动分词算法-增强型最大匹配法,并用此方法实现一个具学习功能的书而汉语实分词系统,系统运行实验表明该分词算法比较好地解决汉语分词的岐义问题,并且有比较高的分词效率。  相似文献   

14.
葛锐 《软件》2013,34(3)
汉语分词,就是将中文语句中的词汇切分出来的过程.分词技术作为中文信息处理的基础环节,它的解决是计算机自然语言理解、人工智能、信息检索、机器翻译等领域突破的关键.因此,开发出一个高精度的汉语分词系统对于中文信息处理显得非常重要.本文讨论了中文分词的概念、目标及其所面临的一些基本问题,并详细介绍了我以自己的认识为基础设计的分词词典以及分词算法.  相似文献   

15.
汉语自动分词词典机制的实验研究   总被引:70,自引:4,他引:66  
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二分的分词词典机制简洁、高效,较好地满足了实用型汉语自动分词系统的需要。  相似文献   

16.
提出了一种新的汉语统计模型CNET,在此基础上提出了一种汉语无词典自动分词算法.该算法首先学习要进行处理的汉语语料,构建CNET,然后根据学习到的知识再去对原始语料进行分词.实验结果表明,该算法分词正确率在70%以上.  相似文献   

17.
一直以来,汉语自动分词是公认的汉语信息处理瓶颈.反思现有汉语自动分词技术,发现均有隐含两大假设:语言是规律的、词具有确定边界.这与语言的复杂性、组合性、动态性、模糊性特征不符.本文采用一种基于隐马尔科夫模型(HMM)的算法,通过CHMM(层叠形马尔科夫模型)进行分词,再做分层,既增加了分词的准确性,又保证了分词的效率.  相似文献   

18.
书面汉语自动分词综述   总被引:9,自引:0,他引:9  
汉语分词是汉语言处理有别于拼音文字语言处理的特点之一。本文回顾了汉语自动分词的研究历史;对现有的四种计算机自动分词方法进行了评介;介绍了当前的研究现状和存在的困难。  相似文献   

19.
汉语分词词典设计   总被引:8,自引:1,他引:8  
汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。论文采用动态TRIE索引树的词典机制,设计并实现了汉语分词词典,有效地减少了词典空间。实验结果表明该词典具有较高的查询性能。  相似文献   

20.
上下文是统计语言学中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础。近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,当前字的词位标注需要借助于该字的上下文来确定。为克服仅凭主观经验给出猜测结果的不足,采用四词位标注集,使用条件随机场模型研究了词位标注汉语分词中上文和下文对分词性能的贡献情况,在国际汉语分词评测Bakeoff2005的PKU和MSRA两种语料上进行了封闭测试,采用分别表征上文和下文的特征模板集进行了对比实验,结果表明,下文对分词性能的贡献比上文的贡献高出13个百分点以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号