首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
中文地名的自动识别是命名实体识别任务中难度较大的任务之一,目的是从中文文本中自动准确提取地理专用名词.文中使用统计模型中的条件随机场对中文地名的自动识别在字一级粒度进行了研究.在研究中利用条件随机场能任意添加特征的优点,合理引用了丰富的特征组合,在大规模语料上进行训练,统计获得标注序列基于特征集的条件概率分布,并采用序列标注的方式,实现中文地名的自动识别.多次闭合测试和开放测试结果F1值为90%左右,识别效果良好.  相似文献   

2.
SVM与规则相结合的中文地名自动识别   总被引:4,自引:0,他引:4  
在分析中文文本中地名特点的基础上,提出了一种支持向量机(SVM)与规则相结合的中文地名自动识别方法:按字抽取特征向量的属性,然后将这些属性转换成二进制向量并建立训练集,采用多项式Kernel函数,得到SVM识别地名的机器学习模型;通过对错误识别结果的分析,构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面导致召回率偏低的不足。实验表明,用SVM与规则相结合的机制识别中文文本中的地名是有效的:系统开式召回率、精确率和F-值分别达89.57%、93.52%和91.50%。  相似文献   

3.
基于篇章的中文地名识别研究   总被引:1,自引:0,他引:1  
该文介绍了以篇章为单位的中文地名识别方法和系统实现。地名识别包括简单地名识别和复杂地名识别两个阶段。简单地名识别由基于条件随机场的识别模块和基于篇章地名关系的识别模块顺序构成,以原始文本为输入,直接利用地名内部结构和相邻字信息进行地名识别和文本分词,然后利用篇章地名关系和地名性判断进一步处理。复杂地名识别以简单地名识别结果为输入,采用条件随机场识别。系统在封闭测试和开放测试中F-1值分别达到92.87%和89.76%。研究发现,在地名性判断中地名确信度低的字串对于地名识别干扰性较大,篇章地名关系能够在不降低识别精确度的情况下有效提高召回率,综合利用地名短距离和长距离依存关系可以有效提高地名识别效果。  相似文献   

4.
对中文地名识别进行了研究,提出了一种结合多知识的地名识别方法,该方法首先以条件随机场模型为框架,充分利用地名的外部特征和内部颗粒特征,将局部特征、复合特征以及专家知识相融合进行中文地名识别;在此结果上,利用构建的专家规则库对实验结果进行修正。实验结果表明,本文的方法是有效的,实验语料为1998年1月的《人民日报》,开放测试准确率、召回率、和F-值分别达到了93.64%、90.36%、92.03%。  相似文献   

5.
双层CRF与规则相结合的中文地名识别方法研究   总被引:2,自引:0,他引:2  
采用一种基于双层CRF模型与规则相结合的方法提高中文地名的识别性能。第一层CRF模型使用单字特征识别地名,将其结果添加至词典。第二层CRF模型利用词性、左指界词、右指界词和处理后的词典特征对地名进行识别。最后利用规则对识别结果进行过滤修剪和补召。通过双层CRF模型获取文本的远距离特征,解决了同一词汇因位置不同而标记不一致的问题,结合依据地名语言学特点制定的规则提高召回率。实验表明,双层CRF与规则相结合的方法对中文地名的识别取得了较好的效果。对Bakeoff2007的MSRA语料进行开放测试,得到的准确率、召回率、F值分别为95.32%、90.34%、94.12%。  相似文献   

6.
中文地名的自动识别   总被引:8,自引:0,他引:8  
以带特征词的中文地名和不带特征词的中文地名作为识别对象,通过构建地名识别规则库,以及对规则库中规则的量化处理来体现规则在识别地名中的可信程度的不同;为提高识别的召回率,采用了两级处理策略,其中每级采用不同的识别方法。开放测试结果表明,召回率为92.23%,精确率为83.88%。  相似文献   

7.
用支持向量机进行中文地名识别的研究   总被引:3,自引:0,他引:3  
用支持向量机(SVM)方法对中文地名的自动识别进行了探讨,对于舍特征词的地名和非地名用支持向量机进行分类:结合中文地名的特点,抽取地名构词可信度及其前后词的词性作为特征向量的属性,建立了一定规模的训练集,并通过对不同kernel函数的测试,得到了地名分类的机器学习模型.实验表明,对于切分正确的地名,本方法具有良好的效果.  相似文献   

8.
藏文地名识别是藏文命名实体识别中必须要解决的问题。通过分析藏文地名的特点及识别难点,阐述了藏文地名的音节、触发词、地名后续词和格助词等特性适用基于CRF模型的地名识别,通过实验,验证了6种特征对藏文地名识别的有效性。实验结果表明该方法对藏文地名识别的准确率、召回率和[F]值分别达到了96.12%、81.92%和88.45%,实验结果与已有的系统相比,取得了较好的效果。  相似文献   

9.
该文通过维吾尔文地名的分析研究,提出了一种基于条件随机场和规则的维吾尔文地名识别方法。根据维吾尔文地名黏着性、音译等特点,针对维吾尔文地名识别任务,在词汇和词性特征基础之上,引入音节、词向量获取的相似单词、常用地名词典、地名特征词、地名词缀等特征进行实验,结果表明这些特征对识别性能有较大的影响。通过对错误识别结果分析,该文提出了基于规则的后处理,进一步提高了识别性能,准确率达到94.68%,召回率达到89.52%,F值达到92.03%。  相似文献   

10.
基于统计的中文地名识别   总被引:20,自引:5,他引:20  
本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的调整,系统闭式召回率和精确率分别为90.24%和93.14% ,开式召回率和精确率分别达86.86%和91.48%。  相似文献   

11.
汉字作为造型元素运用于标志设计中能显示出感人的艺术魅力,是中华民族智慧的结晶。本文从汉字书法的艺术性、汉字结构的图形化及汉字形式的表意性三方面阐述了汉字标志的独特艺术特征。随着时代的发展,汉字必将在标志设计中占有更为重要的地位。  相似文献   

12.
借鉴仿生模式识别的认知观点,从汉字的构造机理和人类认识汉字的习惯角度出发,提出一种基于小波变换的图像汉字识别方法。制定了图像汉字笔划特征提取的具体规则,采用小波变换的方法对图像汉字边缘和笔划轮廓进行检测,通过有效提取图像汉字笔段信息,进行笔段合成,生成汉字或汉字的基本笔划。仿真实验结果表明,这种方法提高了图像汉字笔划特征提取的准确率和稳定性,对于印刷体和书写较规范的手写体图像汉字具有极高的识别率。  相似文献   

13.
提出了一种基于字特征的中文文本分类方法。该方法的出发点是变常用的基于表层的匹配为基于概念的匹配,用汉字特征向量作为文本的表示方法。算法根据文本中汉字的特征建立文本表示矩阵和类别表示矩阵,并通过线性最小二乘算法形成分类矩阵。  相似文献   

14.
基于SVMTool的中文词性标注   总被引:4,自引:0,他引:4  
SVMTool是建立在支持向量机(SVM)原理上的序列标注工具,具有简单、灵活、高效的特点,可以融入大量的语言特征。该文将SVMTool应用于中文词性标注任务,将基于隐马尔科夫模型的基线系统准确率提升了2.07%。针对未登录词准确率不高的问题,该文加入了中文字、词的特征,包括构成汉字的部首特征和词重叠特征,并从理论上分析了这两个特征的可行性,实验显示加入这些特征后,未登录词标注的准确率提升了1.16%,平均错误率下降了7.40%。  相似文献   

15.
车牌首位汉字特征提取和识别是一个难点。传统的车牌汉字的特征提取方法是在具有先验知识的情况下进行的,先验知识的好坏对结果有着非常重要的影响。Rough集,理论上可以从数据集中直接提取特征,不依靠先验知识。先用Rough集理论提取待识别汉字的特征,再用这些特征进行模板匹配。实验结果表明该方法有比较好的识别效果。  相似文献   

16.
基于不带字库的图形LCD模块汉字显示解决方案   总被引:6,自引:5,他引:6  
针对不带汉字字库的图形点阵液晶模块的系统,嵌入GB2312-80字库芯片,利用国标区位码和液晶模块的特点实现汉字和西文字符的混合显示。本文介绍了汉字机内码与区位码的相互转换关系,以及利用T6963C作控制器的液晶模块YJ240D的基本原理,探讨了实际应用中此类液晶模块在嵌入式仪器仪表中混合显示的硬件设计和软件实现方法。  相似文献   

17.
王恺  李成学  王庆人  赵宏  张健 《软件学报》2014,25(10):2266-2281
复杂图像文字识别是基于内容图像检索的一个重要研究方向.针对图像中的文字可能存在倾斜、光照不均、噪音干扰和边缘柔化等多种异态问题,提出一种有效的异态汉字识别方法,称作SC-HOG.首先,利用稀疏编码得到基向量和稀疏系数,通过重构图像滤除噪音、处理边缘柔化;然后,利用梯度方向直方图抽取复原图像的汉字边缘梯度特征,削弱倾斜和光照的影响;最后,将获取的特征向量送入分类器,实现异态汉字的识别.通过合成数据集和真实数据集两方面的实验来验证SC-HOG方法的有效性:前一方面实验结果表明,SC-HOG方法对于倾斜、光照不均、噪音干扰和边缘柔化等异态情况有较强的鲁棒性;后一方面实验结果表明,SC-HOG 方法在原生数字图像和场景图像真实样本集上也能取得较好的结果.  相似文献   

18.
王希雷 《微机发展》2007,17(6):26-28
车牌首位汉字特征提取和识别是一个难点。传统的车牌汉字的特征提取方法是在具有先验知识的情况下进行的,先验知识的好坏对结果有着非常重要的影响。Rough集,理论上可以从数据集中直接提取特征,不依靠先验知识。先用Rough集理论提取待识别汉字的特征,再用这些特征进行模板匹配。实验结果表明该方法有比较好的识别效果。  相似文献   

19.
文章提出了一种新的基于细化的汉字笔画抽取方法,并把笔画统计特征用于汉字的识别。实验结果表明,该方法可有效地抽取出汉字的笔画并可成功地用于汉字的识别。  相似文献   

20.
基于词性探测的中文姓名识别算法   总被引:1,自引:0,他引:1  
本文提出了一种新的基于统计和规则相结合的中文姓名识别方法,即词性探测算法。该方法的特点是在对文本进行分词和词性标注一体化处理的基础上,通过探测候选中文姓名后的词性和比较单字的相对成词能力,能够对分词碎片中的姓名进行有效识别。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号