首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
中文姓名识别是中文信息处理的一项重要技术,识别的召回率对其它需要以姓名识别为基础的中文信息处理技术有至关重要的影响。提出了一种统计模型和处理规则相结合的中文姓名识别方法:首先以最大熵模型识别潜在姓氏,而后再通过判定规则作进一步处理。真实语料的开放测试表明,该方法在召回率方面有明显的优势,可以达到94%以上的召回率,同时能保证较高的准确率。  相似文献   

2.
采用统计方法来识别中文姓名。该方法将中文姓名的识别过程分为姓名候选和姓名确认两个阶段。采用隐马尔可夫模型(HMM)分类器从未经切分的汉字串中候选姓名。利用人名与上下文词汇的互信息对候选人名进行最后的确认。该方法是完全数据驱动的,不需要姓名识别模板和规则。试验结果表明,该方法的召回率为82.7%,准确率为89.6%。  相似文献   

3.
双层CRF与规则相结合的中文地名识别方法研究   总被引:2,自引:0,他引:2  
采用一种基于双层CRF模型与规则相结合的方法提高中文地名的识别性能。第一层CRF模型使用单字特征识别地名,将其结果添加至词典。第二层CRF模型利用词性、左指界词、右指界词和处理后的词典特征对地名进行识别。最后利用规则对识别结果进行过滤修剪和补召。通过双层CRF模型获取文本的远距离特征,解决了同一词汇因位置不同而标记不一致的问题,结合依据地名语言学特点制定的规则提高召回率。实验表明,双层CRF与规则相结合的方法对中文地名的识别取得了较好的效果。对Bakeoff2007的MSRA语料进行开放测试,得到的准确率、召回率、F值分别为95.32%、90.34%、94.12%。  相似文献   

4.
SVM与规则相结合的中文地名自动识别   总被引:4,自引:0,他引:4  
在分析中文文本中地名特点的基础上,提出了一种支持向量机(SVM)与规则相结合的中文地名自动识别方法:按字抽取特征向量的属性,然后将这些属性转换成二进制向量并建立训练集,采用多项式Kernel函数,得到SVM识别地名的机器学习模型;通过对错误识别结果的分析,构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面导致召回率偏低的不足。实验表明,用SVM与规则相结合的机制识别中文文本中的地名是有效的:系统开式召回率、精确率和F-值分别达89.57%、93.52%和91.50%。  相似文献   

5.
针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建了一个哈萨克文机构名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训练,得到一个特征训练模型,然后利用训练好的特征模型及少量的附加规则,对测试文本中的机构名进行识别,实验结果表明该方法可行。  相似文献   

6.
刘竞  苏万力 《福建电脑》2006,(7):92-92,96
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。歧义字段切分中的未登录词是中文自动分词中较难处理的部分,其中的中文姓名的识别对中文自动分词的研究具有重要的意义。本文针对基于统计的和基于规则的中文姓名识别方法的不足,使用统计和规则相结合的方法来识别中文姓名。利用统计方法对中文姓名进行初步识别,采用规则方法对统计识别的中文姓名进行校正,进一步提高中文姓名识别的精度。  相似文献   

7.
基于规则的中文缺省识别研究   总被引:1,自引:1,他引:0  
杨国庆  孔芳  朱巧明  李培峰 《计算机科学》2011,38(12):255-257,273
中文语句中广泛存在缺省现象,缺省项识别的准确与否关系到缺省消解结果,因此对缺省项的识别很重要。介绍了一种基于规则的中文缺省项识别方法,即采用CTS语料构建基准语料库,以动词驱动为核心提出规则来获得缺省项的结构化信息。实验结果显示,基于规则的中文缺省项识别方法具有可行性。  相似文献   

8.
程晨 《福建电脑》2010,26(8):30-31
中文命名实体识别的研究有着重大的现实意义。本文先对信息抽取技术和其中的命名实体识别进行概述,然后简介了GATE这样一种信息抽取工具,以及使用GATE进行中文命名实体识别的规则(以货币识别为例),最后对全文进行了总结。  相似文献   

9.
中文地名的自动识别   总被引:8,自引:0,他引:8  
以带特征词的中文地名和不带特征词的中文地名作为识别对象,通过构建地名识别规则库,以及对规则库中规则的量化处理来体现规则在识别地名中的可信程度的不同;为提高识别的召回率,采用了两级处理策略,其中每级采用不同的识别方法。开放测试结果表明,召回率为92.23%,精确率为83.88%。  相似文献   

10.
蔡勇智 《福建电脑》2006,(3):116-117
未登录词识别是中文分词系统的两大难题之一。它时提高中文分词最终的正确率和召回率起着重要的作用。本文提出一种改进的未登录词识别算法,通过统计分析大规模语料库及未登录词词表,对前人的成词规则进行改进.并结合限制性成分时所识别的未登录词进行纠正,得出较准确的未登录词识别结果。该算法是规则和统计相结合并且侧重于规则的识别算法,是中文分词中比较有效的未登录词识别算法之一。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号