首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
尹锋  林亚平 《软件世界》1996,(12):76-80
神经网络研究从40年代信息科学的开创时期诞生到现在走过了半个世纪的曲折历程后,迎来了一个空前活跃的新的发展时期,成为现代脑神经科学、数理科学及信息科学等综合研究领域的共同科学前沿之一。 自然语言自动分词与处理的研究在国外发端于50年代末,现已获得很大进展,我国汉语自动分词的研究起步较晚,始于80年代初,近几年来取得明显成效。但由于汉语结构上的复杂性和分词理论与技术等诸多原因的影响,使得汉语自动分词未能取得重大的实质性突破。 采用包括神经网络、专家系统在内的人工智能技术进行汉语自动分词研究,是当前中文信息处理领域的热门话题,也是该领域的一个重要发展方向。 为帮助广大读者了解汉语自动分词的研究进展以及神经网络等人工智能技术在汉语言处理方面的应用情况,本刊约请尹锋和林亚平同志撰写了《神经网络的发展及其在汉语言处理方面的应用》、《汉语自动分词技术的现状及发展趋势》、《神经网络汉语自动分词技术》和《神经网络专家系统集成式汉语自动分词技术》等四篇文章。尹锋和林亚平同志多年从事计算机科研与教学工作,发表了一系列成果和论文,近年来,致力于神经网络和汉语自动分词研究,这几篇文章反映了他们的部分研究成果。 《神经网络的发展及其在汉语言处理方面的应用》  相似文献   

2.
自动标引是基于内容检索的关键技术之一。目前国内的汉语自动标引研究主要集中于汉语自动分词这个前期处理问题上。提出了一种基于词平台的汉字编码方法,建立了一种新的中文计算机文档表达格式,使词成为最小的信息单位,汉语分析无需再进行自动分词,可直接进行自动标引,从而提高自动标引的效率和质量。  相似文献   

3.
汉语计算机自动分词知识   总被引:20,自引:3,他引:17  
汉语分词是汉语言计算机处理的一项不可缺少的工作。使用自动分词知识可以进一步提高自动切分精度, 满足高标准的需求。本文在[1][2][3]的研究基础上, 介绍了一些行之有效的自动分词知识。根据对48092 个汉字的语言材料统计结果表明统计材料分社会科学和自然科学两部分, 这些自动分词知识可以处理左右的歧义切分字段。  相似文献   

4.
汉语处理的基础工程——现代汉语词频统计   总被引:10,自引:1,他引:9  
汉语词领统计是汉语言处理的一项基础工程。汉语词汇量巨大, 人工统计精度上难以保证。由于存在编码输入、分词等方面的困难, 直到八十年代初期, 我国才开始利用计算机进行汉语分词、统计的研究。“ 现代汉语词预统计” 是由北京航空学院等个单位研制成功的、规模巨大的汉语基础工程。它选取汉语材料约三亿字, 从中抽样输入了二千余万汉字, 并对之进行了计算机自动分词和频度统计。它首次实现了一个汉语自动分词系统一CDWS, 建立了一个有十三余万词条的计算机词典, 研制了一个有五十二个属性的汉字信息库。  相似文献   

5.
歧义处理是影响分词系统切分精度的重要因素,是自动分词系统设计中的一个核心问题。本文介绍了一种新的分词算法,利用汉语句内相邻字之间的互信息及t-信息差这两个统计量,解决汉语自动分词中的歧义字段的切分问题。试验结果表明,该方法可以有效地提高歧义处理的正确率。  相似文献   

6.
中文信息处理中自动分词技术的研究与展望   总被引:22,自引:0,他引:22  
汉语自动分词是中文信息处理的关键技术,已经成为中文信息处理发展的瓶颈。文章介绍了当前自动分词技术的研究状况,对各种分词算法进行了介绍,并对各种算法进行了比较和讨论。最后,对汉语自动分词技术的发展进行了展望。  相似文献   

7.
曲维光 《计算机科学》2002,29(Z1):54-56
1引言 计算机自动分词是现代汉语处理的重要组成部分,也是最基础的工作.汉语处理的后续工作,如词性标注、句法分析、语义分析、篇章理解以及机器翻译等,都以自动分词后的文本作为处理的起点.要想最终实现高质量的篇章理解和机器翻译系统,自动分词质量的高低至关重要.  相似文献   

8.
汉语自动分词技术研究   总被引:1,自引:0,他引:1  
汉语自动分词是中文信息处理的基本问题.从分词的基本理论出发,对近年来中文分词研究的现状进行介绍,指出了能够大幅度提高未登录词识别性能的分词方法将是未来汉语自动分词技术的发展趋势,分析了分词中存在的两个困难及其解决方法.  相似文献   

9.
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说明几种词典机制的效率差异来证明所提出分词词典机制的有效性。  相似文献   

10.
提出了一种新的汉语统计模型CNET,在此基础上提出了一种汉语无词典自动分词算法.该算法首先学习要进行处理的汉语语料,构建CNET,然后根据学习到的知识再去对原始语料进行分词.实验结果表明,该算法分词正确率在70%以上.  相似文献   

11.
汉语自动分词技术的现状及发展趋势   总被引:11,自引:0,他引:11  
尹锋  林亚平 《软件世界》1996,(12):80-84
一、汉语自动分词的提出与困难 汉语自动分词是80年代初期中文信息处理领域提出的重大课题,分为书面汉语分词和口词分词,前者指对键盘输入或以光电识别输入计算机的汉语进行处  相似文献   

12.
书面汉语自动分词是目前中文信息处理的一个公认难题,利用人工智能技术构造汉语自动分词专家系统可以说是一个方向。本文分析了歧义字段的产生根源,提出了将深部知识结构(DKS)技术用于自动分词专家系统的设想,并叙述了Aspect的分类及DKS推理,目的是试图探讨出一种新的书面汉语自动分词专家系统的实现方法。  相似文献   

13.
机器翻译的词处理研究   总被引:5,自引:1,他引:4  
本文首先在讨论汉语自动分词这一难题的基础上提出最大匹配分词的改进算法,然后论述词性兼类处理的一些方法,最后探讨了汉英机器翻译时名词的单复数处理算法。  相似文献   

14.
一种中文分词词典新机制——双字哈希机制   总被引:42,自引:2,他引:42  
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制——双字哈希机制,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下,提高了中文分词的速度和效率。  相似文献   

15.
基于歧义二叉树的汉语分词方法   总被引:7,自引:0,他引:7  
歧义问题是自动分词系统中要解决的主要问题之一。本文介绍一种新的汉语分词方法,它利用所建立的歧义二叉树,得到多种切分可能,通过分析歧义字段的特性,再结合规则处理和统计模型进行汉语分词。  相似文献   

16.
汉语自动分词实用系统CASS的设计和实现   总被引:9,自引:1,他引:8  
近年来, 汉语自动分词成力中文信息处理的一大热门课题, 其研究进展令人关注。本文主旨, 是通过介绍CASS系统的设计和实现, 阐述汉语自动分词实用系统的一般性原理, 包括系统的总体结构、自动分词算法和分词词典的实现、各种多义切分字段的识别和处理, 等等。CASS系统由总控程序、自动分词程序、设施管理程序、分词词典和知识库等五大部分组成。自动分词算法程序选用正向增字最大匹配法ASM(+1,+1,+1)实现, 该算法的嵌套调用, 可以识别出各种多义切分字段, 包括任意多重的交集型多义字段。这个算法经过相应的运行控制, 可以实现其它各种分词方法。  相似文献   

17.
交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。  相似文献   

18.
本文提出了一个能由汉语科技资料里自动提取所需信息的汉语理解系统CUI,它能有效地应用于某一领域,并具有较好的适应性。本文强调了语义及领域知识的作用,探讨了汉语处理的分词;分析及理解阶段中的若干问题,还给出了系统各处理阶段的主要算法。  相似文献   

19.
回顾了书面汉语自然分词的研究历史,提出了一种新的汉语分词设想——综合匹配法,并且给出了处理流程。  相似文献   

20.
吴东峥 《福建电脑》2009,25(3):85-85
汉语自动分词在面向大规模真实文本时,仍然存在很多困难。本文在传统的语料库方法的基础上,提出一种基于开放性语料库的汉语自动分词方法。建立开放性语料库,并引入开放式知识库学习和评价机制。实验结果表明,开放机制的引入能有效提高汉语自动分词的精确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号