首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
本文通过研究现有中文分词技术的理论和工具,提出一种面向未登录领域词识别的中文自动分词算法。首先,利用已有的中文自然语言处理技术对中文文本进行自动分词,并用一种改良的串频统计方法自动识别出语料中的未登录领域词汇,从而有效提高了中文分词的准确性。  相似文献   

2.
方志类古籍地名识别及系统构建   总被引:4,自引:0,他引:4  
以地方志资料汇编<方志物产>(广东分卷)为语料,设计并构建了古籍地名识别系统.采用规则与统计相结合的命名实体识别方法,实现了物产地名的自动识别.分析了命名实体识别技术在中国方志类古籍整理中的应用前景,为方志类古籍进行数字化整理、挖掘物产分布、物产引进和传播等相关研究提供了新的途径.  相似文献   

3.
地方志引书挖掘系统的设计与实现   总被引:2,自引:0,他引:2  
古籍文献普遍存在着引书现象,因而构建一套针对地方志引书的挖掘识别系统,对古籍的研究以及目录学史、藏书史、科技史,都具有重要意义.本文以地方志资料汇编<方志物产>为语料,设计并构建了一个古籍引书挖掘系统.重点讨论了引书的模式提取、N-gram分词识别等功能算法.  相似文献   

4.
古籍文本抽词研究   总被引:2,自引:0,他引:2  
目前古籍文本检索大多局限于篇、章及目录,即使是全文检索一般也是基于单汉字的检索,由于没有现成的古籍词表可用,古籍文本的标引和检索效率都受到影响。现将处理现代文本的N元组法移植到古籍文本中进行实义词提取,实验步骤包括:自动分词并统计词频;利用抽词词典和停用词词典得到候选词汇;通过简单计算对n元组进行剔除过滤;人工判别提取实词。实验共从10万字的文本对象《齐民要术》中提取古籍普通语词和专有名词(包括书名、地名、人名官职名)共3369个,表明此实验方案基本是可行的。  相似文献   

5.
国内中文自动分词技术研究综述   总被引:22,自引:0,他引:22  
认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点.全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点.  相似文献   

6.
自适应分词算法中的未登录词识别技术研究   总被引:2,自引:0,他引:2  
深入研究了未登录词识别技术,并提出了一种新的未登录词识别算法,包括其中的数量词识别规则、边界单字规则、虚字辅助规则、未登录词记忆识别规则以及左右方探测法选取未登录词规则等,使得算法在不依赖大型语料库的前提下可以有效地识别多种领域中各种类型的未登录词.同时,算法通过对绝大部分的交集歧义的识别有效地解决了识别未登录词时导致的新的切分歧义的问题.在网络时文的开放性测试中,分词算法的分词准确率约为90.1%,未登录词识别的准确率、召回率分别为91.2%和94.7%.  相似文献   

7.
以方志资料汇编《方志物产》(广东分卷)为语料,探讨GIS在方志开发利用中的应用前景.通过借用GIS,实现对《方志物产》中物产分布、物产传播等相关数据的管理和可视化制图并进行史料数据的空间分析,以最大限度地挖掘、利用方志史料,为方志类古籍的数字化整理提供一种新的思路.  相似文献   

8.
现代信息技术飞速发展,为古籍引书计算机识别提供了可能性。本研究的目的是研究古籍引书的引用模式,进而探讨模式识别方法在引书识别中的应用。具体方法是以明、清及民国时期广东地方志中有关物产门目资料(《广东方志物产》)为语料,抽取所有引书的引用模式(引书名称及其表达方式),分别对引书名称模式和引用表达方式进行研究。  相似文献   

9.
异名别称是指同一个或同一类事物的不同名称.在古代汉语文献中,异名别称现象十分普遍,而中国地方志以记载动植物为主的物产资料中,物产的异名别称比比皆是.用模式匹配方法识别异名别称国内外研究很少,这种方法的关键在于异名别称的表达模式抽取.本文以明、清及民国时期广东方志中的有关物产门目资料为语料,全面抽取物产异名别称的表达模式,并把这些表达模式分成有别称词和无别称词两大类,分别进行较为详细的进一步分类和研究,探求其用于模式匹配的异名别称表达规则.文章最后对辑录的表达模式进行了测试,识准率为71.6%.识全率为88.6%.  相似文献   

10.
基于词表和N-gram算法的新词识别实验   总被引:1,自引:0,他引:1  
目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号