首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
介绍了中文分词算法和MFC应用程序,在中文分词方面,采用双向最大匹配算法,即正向最大匹配和逆向最大匹配算法。在系统设计方面,采用MFC应用程序框架实现整个系统的可视化。建立了一个包含44 000余词条的汉语电子词典及其后台数据库,完成了一个包含有汉语电子词典和中文分词功能的应用程序。  相似文献   

2.
在比较各种传统分词方法优缺点的基础上,本文提出了一种新的分词算法。它采用改进的双向Markov链统计方法对词库进行更新,再利用基于词典的有穷自动机后串最大匹配算法以及博弈树搜索算法进行分词。实验结果表明,该分词算法在分词准确性、效率以及生词辨识上取得了良好的效果。  相似文献   

3.
词是语言中最小的能够独立活动的有意义的语言成分,是信息处理的基本单位。词频统计、语音识别、字符识别、自动分类、机器翻译、信息检索、信息抽取等方面的研究, 也必须首先分词。在这些应用和研究领域,没有准确高效的分词策略,汉语的进一步分析必将受到严重影响。本文研究用Delphi设计中文分词。  相似文献   

4.
汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。分析了三种典型的分词词典结构,提出了一种具有三级索引的新词典结构,并提出了最大正向匹配的改进型匹配算法,从而降低了匹配过程的时间复杂度。最后通过实验,比较了三种典型词典结构与新词典结构的时间效率。实验结果表明,新词典结构具有更高的词典查询速度和分词速度,可以有效满足中文处理系统的需求。  相似文献   

5.
赵双柱 《福建电脑》2010,26(1):86-86,90
分词方法是中文搜索引擎系统中最为基础和最为重要的技术,它直接影响搜索引擎对用户搜索结果的准确性与快速性。本文采用链栈存储用户按搜索目标分割好的搜索关键字,利用链栈先进后出的操作特点,用逆向最大匹配分词法实现中文搜索引擎中搜索关键字的快速与准确分词,从而实现系统对用户搜索的快速与准确反应。  相似文献   

6.
使用二级索引的中文分词词典   总被引:3,自引:0,他引:3       下载免费PDF全文
中文分词是中文信息处理的基础,在诸如搜索引擎,自动翻译等多个领域都有着非常重要的地位。中文分词词典是中文机械式分词算法的基础,它将告诉算法什么是词,由于在算法执行过程中需要反复利用分词词典的内容进行字符串匹配,所以中文分词词典的存储结构从很大程度上决定将采用什么匹配算法以及匹配算法的好坏。在研究现存分词词典及匹配算法的基础上,吸取前人的经验经过改进,为词典加上了多级索引,并由此提出了一种新的中文分词词典存储机制——基于二级索引的中文分词词典,并在该词典的基础上提出了基于正向匹配的改进型匹配算法,大大降低了匹配过程的时间复杂度。从而提高了整个中文分词算法的分词速度。  相似文献   

7.
正向最大匹配算法是中文自动分词一种常用算法。它为词典设计了键树结构,克服了设定初始词长的限制,并用Java实现了算法。  相似文献   

8.
一种改进的中文分词正向最大匹配算法   总被引:1,自引:0,他引:1  
正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端.针对此问题提出了根据中文分词词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法.与此相配合,设计了一种词典结构,使之能够有效地支持改进的算法.改进的算法与一般正向最大匹配算法相比大大减少了匹配次数,分析表明中文分词的速度和效率有了很大提高.  相似文献   

9.
具有三级索引词库结构的中文分词方法研究   总被引:2,自引:1,他引:1  
提出了一种分组并具有三级索引结构的词库组织体系,给出了合适的索引密度间隔;针对系统基本词库的扩充问题,考虑了一种基于词频统计并具有过滤功能的关键词自动抽取和小词条添加方法。大量仿真实验结果表明,采用该方法可较大提高中文文本的切词速度及信息的查全查准率。  相似文献   

10.
为了能够快速、准确地进行中文分词,在传统分词词典构造及相应算法的基础上,提出了改进的基于词典中文分词方法.该方法结合双字哈希结构,并利用改进的正向最大匹配分词算法进行中文分词,既提高了分词速度,同时解决了传统最大匹配分词算法中的歧义问题.实验结果表明,该方法在一定程度上提高了中文词语切分的准确率,同时大大缩短了分词时间.  相似文献   

11.
对于中文电子病历文本中的否定术语的检出,目前有很多方法,基于规则的否定检出是比较常用的一种算法。但是该方法无法解决由于标点录入错误造成假阳性的问题。因此,在基于规则算法的基础上,提出一种基于词共现的否定检出算法,通过收集200份中文电子病历约150 865个汉字字符进行实验,新方法的阴性预测值比基于规则的算法提高了7.85%。所以,基于规则和词共现的否定检出算法能够很好地降低由于标点录入错误而出现假阳性术语的概率。  相似文献   

12.
文语转换系统中基于语料的汉语自动分词研究   总被引:9,自引:0,他引:9  
基于一个实际的文语转换系统,介绍了经的一些处理方法,采用了一种改进的最大匹配法,可以切分出所有的交集歧义,提出了一基于统计模型的算法来处理其中的多交集歧义的字段,并用穷举法和一睦简单的规则相结合的方法从实用角度解决多音字的异读问题以及中文姓名的自动识别方法,解决了汉语切分歧义、多音词处理、,中文姓名的自动识别问题,达到实现一文语转换的。  相似文献   

13.
汉语简繁体转换与语词切分   总被引:2,自引:0,他引:2  
随着港澳台湾及世界华人地区与中国大陆文化经济的交流日益频繁,利用电脑开发一种自动化的准确高效的简繁汉字系统显得越来越重要。本文罗列了简繁汉字转换在单词等诸多方面存在的问题,提供了我们已实现并投入使用的系统功能的特点,文章还介绍了本系统所涉及的汉字交换码架和内码,解释了几种语词切分算法以及切分歧义,最后对本系统的可维护性、转换正确率和转换速度三个主要方面进行了性能分析并给出了测试结果。  相似文献   

14.
一种改进的快速分词算法   总被引:38,自引:0,他引:38  
首先介绍了一种高效的中电子词表数据结构,它支持首字Hash和标准的二分查找,且不限词条长度;然后提出了一种改进的快速分词算法,在快速查找两字词的基础上,利用近邻匹配方法来查找多字词,明显提高了分词效率.理论分析表明,该分词算法的时间复杂度为1.66,在速度方面,优于目前所见的同类算法。  相似文献   

15.
Web搜索引擎框架研究   总被引:42,自引:1,他引:42  
Web搜索引擎是Internet上非常有用的信息检索工具,但是由于目前搜索引擎检索出的信息量庞大,且一个特定的搜索引擎主要包含某一特定领域的信息,这使得用户很难从某一个搜索引擎获得准确的导航信息。文中提出一个新的Web搜索引擎框架GSE,并提出了一个适合于Web信息获取与处理的语言WERPL。通过WIRPL可以将多个Web搜索引擎结合起来,为用户提供一个一致、高效、准确的Web搜索引擎。  相似文献   

16.
随着网络上使用或存储在数据库中的三维模型数量迅速增加,如何从大量的三维模型中检索到相似的三维模型变得十分必要。由于目前基于形状的三维模型检索不包含语义概念,因而检索的结果已不能满足用户的需要。针对此现象提出一种新方法,即结合语义和形状特征的三维模型检索。使用K-means算法把形状特征聚类到语义群中,空间关系消除具有相似外观模型之间的歧义。利用普林斯顿形状基准数据库进行实验,结果证明了该方法的可行性。  相似文献   

17.
利用汉字二元语法关系解决汉语自动分词中的交集型歧义   总被引:52,自引:2,他引:52  
本文提出了一种利用句内相邻之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法。初步的实验结果显示,可以正确处理90.3%的交集字段。  相似文献   

18.
如何充分利用计算机的资源、协调搜索引擎系统中多个搜索引擎的运作、提高查找速度,是搜索引擎系统开发中要解决的关键问题之一。本文介绍了搜索引擎中并行检索均衡自适应机制的解决方案,经实践证明运行效果良好,达到了预期目标。  相似文献   

19.
向量空间法中单词权重函数的分析和构造   总被引:76,自引:3,他引:76  
文本分类是文本挖掘的基础与核心,是近年来数据挖掘和网络挖掘的一个研究热点,在传统的情报检索、网站索引体系结构的建立和Web信息检索等方面占有重要地位,深入分析了一种简单而常用的经典文本分类模型--向量空间模型(vector space model,VSM)--的实质,找出了其分类精度低的原因,提出了一种利用特征筛选中的评估函数代替IDF函数进行权值调整的方法,并对采用各种不同评估函数进行权值调整的性能进行了理论分析和实验比较,提出了一种构造新的高性能评估函数的新颖方法。  相似文献   

20.
汉语连续语音识别系统与知识导引的搜索策略研究   总被引:1,自引:0,他引:1  
从整体上介绍了汉语连续语音识别系统的基本原理,并重点对声学和语言两个层面的建模与搜索策略进行了分析.在对传统帧同步搜索算法进行研究的基础上,提出了基于统计知识的帧同步搜索算法SKB-FSS.它包含了三个主要的功能层次:基于归并的音节切分自动机产生确定的搜索边界点,由统计得到的差分状态驻留信息控制搜索过程中的状态转移,利用词搜索树控制音节候选的扩展规模并根据动态前向预测的方法进行合理而及时的路径剪枝.实验结果验证了该搜索策略的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号