首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
规则和统计相结合的汉语词类标注方法   总被引:22,自引:5,他引:17  
本文分析了汉语的多类词现象与汉语词类标注的困难, 介绍了汉语词类标注中的规则排歧和统计排歧的处理策略以及规则和统计相结合的处理思路。按此思路设计的软件系统, 对封闭语料和开放语料的标注正确率分别达到了96.06%和95.82%。  相似文献   

2.
基于统计的汉语组块分析   总被引:10,自引:6,他引:10  
刘芳  赵铁军  于浩 《中文信息学报》2000,14(6):28-32,39
组块分析是一种大大降低句法分析难度的有效手段。本文针对汉语普遍规律,提出了一套符合汉语语言特点的汉语组块体系,并在此基础上设计实现了一种统计与错误驱动相结合的、能够分析有限层次的组块自动识别算法。实验证明,该方法能够有效地处理真实文本中的浅层分析问题,具有较好的准确率和鲁棒性。  相似文献   

3.
统计和规则相结合的汉语组块分析   总被引:6,自引:0,他引:6  
从广西中获得的组块对机器翻译,信息检索等很多领域都非常有用,介绍了规则和统计进行组块分析的处理策略,提出了规则与统计相结合的处理方法,并且结合组块分析的实际情况改进了一般评价系统性能的指标,通过封闭测试和开放测度验证,与单纯规则组块划分相比较,组块识别的精确率和召回率都得到了提高,组块划分错误率降低了7%。  相似文献   

4.
统计与规则并举的汉语句法分析模型   总被引:6,自引:0,他引:6  
在自然语言分析中,传统的基于规则的方法和近年兴起的基于统计的方法各有利弊,如何把二者有机的结合起来,以提高分析器的处理能力,是当前计算语言学的重要课题。本文采用依存文法,提出了一种基于依存文法的融合语料库,规则方法和统计方法的汉语分析模型。该模型的特点是将汉语依存文法分析看作是与词性标注过程等价的一个基于统计的标注过程。文中首先介绍了CRSP的设计思想,然后讨论了从标注过的语料中获取知识的方法,叙  相似文献   

5.
统计与规则并举的汉语词性自动标注算法   总被引:8,自引:0,他引:8  
张民  李生  赵铁军  张艳风 《软件学报》1998,9(2):134-138
本文提出并实现了一种基于定量统计分析优先的统计和规则并举的汉语词性自动标注算法.本算法引入置信区间的概念,优先采用高准确率的定量统计分析技术,然后利用规则标注剩余语料和校正部分统计标注错误.封闭和开放测试表明,在未考虑生词和汉语词错误切分的情况下,本算法的准确率为98.9%和98.1%.  相似文献   

6.
规则与统计结合进行汉英机器翻译消歧   总被引:2,自引:0,他引:2  
刘颖 《计算机应用》2002,22(5):21-23,30
采用基于转换的方法进行汉英机器翻译,在机器翻译的每个阶段(汉语切分、词性标注、句法语义分析、树转换、词串生成)采用规则方法和统计方法相结合进行消歧。实验结果表明:两种方法结合提高了机器翻译的正确率。  相似文献   

7.
书面汉语的全切分分词算法模型   总被引:11,自引:1,他引:10  
本文首先讨论了全切分研究的问题,然后从一般性出发提出了全切分的求解公式、切分树、全切分DAG(无环有向)图和全切分的抽象算法模型,在此基础上特别指出了全切分普遍存在的重复切分问题.进而,本文针对串行全切分分词算法和剪技的方法进行了研究,给出了串行全切分分词方法的算法模型.  相似文献   

8.
基于边界点词性特征统计的韵律短语切分   总被引:10,自引:6,他引:4  
由于基于规则方法的文本处理系统在系统建立时需要总结大量的规则,而且很难保证它在处理大规模真实文本时的强壮性,因此本文在使用统计方法进行韵律短语切分方面做了一些有益的探索。先对文本进行自动分词和自动词性标注,然后利用从已经经过人工标注的语料库中得到的韵律短语切分点的边界模式以及概率信息,对文本中的韵律短语切分点进行自动预测,最后利用规则进行适当的纠错。通过对一千句的真实文本进行封闭和开放测试, 词性标注的正确率在95%左右,韵律短语切分的召回率在60%左右,正确率达到了80%。  相似文献   

9.
蒙古词法分析是蒙古语信息处理的基础性问题,是蒙古语信息处理工作的第一步。通过对统计模型和蒙古语构词规则进行深入研究,提出了一种融合统计和规则技术的蒙古语词切分和词性标注的方法。该方法以统计模型作为基本框架,采用树形结构描述系统的解空间,并加入了蒙古语语言学规则和词干、词缀词典。实验结果表明,该系统分词和词性标注的词级准确率为95.1%,词干/词缀级准确率为94.6%,较已有蒙古语词法分析系统的准确率有所提高。  相似文献   

10.
文言信息的自动抽取有利于语言监测和语料库构建。同时该文的计算研究也验证了语言学界关于汉语文白系统连续性的自省结论。该文将从混合语料中标注文言文的问题视为短文本分类的问题进行处理。使用基于规则和基于统计的方法对文言文、白话文本进行分类。在基于规则的方法中,考虑文言常用虚词和句式的影响,对N-gram、朴素贝叶斯、最大熵、决策树模型的性能进行了研究。结果表明监测虚词系统的一元语言模型的F值达到了0.98。  相似文献   

11.
基于规则与统计相结合的中文文本自动查错模型与算法   总被引:7,自引:0,他引:7  
中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43% ,误报率为30.57%。  相似文献   

12.
一种规则与统计相结合的汉语分词方法   总被引:20,自引:2,他引:18  
汉语自动分词是中文信息处理领域的一项基础性课题,对现有的汉语分词方法作了简单的概述和分析,然后提出了一种新的分词方法,该方法基于一个标注好了的语料库,并且结合了规则和语料库统计两种分词方法。  相似文献   

13.
We present the combination of a decision theoretic and a syntactic approach to image segmentation. It is shown how statistical properties of iconic information can be systematically used to program a special architecture for parallel decision theoretic image segmentation. It is also shown how the probabilistic output of this architecture automatically provides problem dependent primitives for a subsequent syntactic phase. This phase can resolve ambiguities and incomplete segmentation results in cases where objects and background are not clearly distinct by textural and gray level properties alone. Evidence for the performance of the suggested combined approach is provided by examples from different industrial and biomedical applications.Supported by Bundesminister für Forschung und Technologie (BMfT) and AEG Ulm, Germany.  相似文献   

14.
基于规则的汉语句法分析方法研究   总被引:4,自引:1,他引:4  
该文从汉语的句法结构特点出发对基于规则的汉语句法分析方法进行讨论,从中总结出这类方法的一般特征,提出实用化的基于规则的汉语句法分析器必须引入其它辅助分析手段才能提高性能和可靠性。  相似文献   

15.
本文应用N-最短路径法,构造了一种中文自动分词和词性自动标注一体化处理的模型,在分词阶段召回N个最佳结果作为候选集,最终的结果会在未登录词识别和词性标注之后,从这N个最有潜力的候选结果中选优得到,并基于该模型实现了一个中文自动分词和词性自动标注一体化处理的中文词法分析器。初步的开放测试证明,该分析器的分词准确率和词性标注准确率分别达到98.1%和95.07%。  相似文献   

16.
该文通过研究国内外相关的句法分析算法与理论,再结合维吾尔语自身的特点对基于规则的维吾尔语句法分析方法进行讨论,由于维吾尔语作为一种自然语言,具有自然语言所共有的一些规则,发现国外经典的句法分析方法同样适合于维吾尔语的句法分析,本论文主要讨论了自项向下的的自动句法分析方法。  相似文献   

17.
逐字分词法是以汉语词典为基础对中文语句通过匹配进行切分的方法。该方法在分词中无法解决交叉歧义与组合歧义带来的问题。本文以词典分词为基础,从序列标注的角度,在逐字匹配过程中使用CRFs标注模型提供辅助决策,由此来处理歧义问题。经实验和分析,该方法较传统的CRFs模型分词法和词典分词,更适合对分词速率及正确率都有一定要求的系统。  相似文献   

18.
规则软件系统模式匹配算法研究综述   总被引:1,自引:0,他引:1  
模式匹配算法是规则软件系统的核心技术.本文叙述规则软件系统的基本概念、工作原理和主要推理方式;研究规则软件系统的模式匹配问题,总结了改善模式匹配效率的方法和技术;介绍Rete、Treat、Leaps和Matchbox四种典型的前向推理顺序模式匹配算法,分析研究了各个算法使用的提高匹配效率的技术及其优缺点,并对模式匹配算法当前研究进展和规则软件系统的应用现状进行了阐述.  相似文献   

19.
字标注汉语词法分析中上文和下文孰重孰轻   总被引:1,自引:0,他引:1  
汉语词法分析是中文信息处理的基础,现阶段汉语词法分析的主流技术是基于统计的方法,这类方法的本质 都是把词法分析过程看作序列数据标注问题。上下文是统计方法中获取语言知识和解决自然语言处理中多种实际应 用问题必须依靠的资源和基础。汉语词法分析时需要从上下文获取相关的语言知识,但上文和下文是否同样重要呢? 为克服仅凭主观经验给出猜测结果的不足,对基于字标注汉语词法分析的分词、词性标注、命名实体识别这3项子任 务进行了深入研究,对比了上文和下文对各个任务性能的影响;在国际汉语语言处理评测13akcof f多种语料上进行了 封闭测试,采用分别表征上文和下文的特征模板集进行了对比实验。结果表明,在字标注框架下,下文对汉语词法分 析性能的贡献比上文的贡献高出6个百分点以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号