首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于“固结词串”实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。  相似文献   

2.
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。其中歧义字段切分是中文自动分词研究中的一个“拦路虎”,是影响分词系统切分精度的主要因素。能够正确切分某一类歧义字段的知识称为分词知识,所有分词知识的集合称为知识库或规则库。本文通过建立交集型歧义字段切分知识库,并采用知识学习的方法来丰富系统的知识,充分利用了知识库中积累的词的二元语法关系、语素构词、句法关系以及上下文等信息,提高了交集型歧义字段的切分精度。  相似文献   

3.
为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法.针时首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一种逆向回溯最大匹配算法,该改进算法采用的回溯机制能够有效消除分词中可能存在的一些歧义问题.实验结果表明,该方法实现了提高中文分词速度并减少交集型歧义字符串切分错误的设计目标.  相似文献   

4.
中文信息检索引擎中的分词与检索技术   总被引:32,自引:2,他引:32  
吴栋  滕育平 《计算机应用》2004,24(7):128-131
文中论述了在开发中文信息检索系统中所涉及到的两项关键技术,即中文分词技术和检索技术。针对中文分词技术,介绍了一种改进的正向最大匹配切分算法,以及为消除歧义引入的校正策略,并在此基础上结合统计方法处理未登录词。针对检索技术,综述了几种最常用的检索模型的原理,并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试,测试结果表明该分词算法准确度和效率能够满足实用的要求。  相似文献   

5.
一种基于词编码的中文文档格式   总被引:1,自引:0,他引:1  
焦慧  刘迁  贾惠波 《计算机科学》2008,35(10):162-164
分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍.基于中文词的编码方法,以每个词作为一个单位,对词进行编码.此方法避开了中文的自动分词问题,特别是解决了歧义切分的难题,并提出了一种利用文档格式解决未登录词问题的新思路.采用统计分析方法对词平台基础上的关键词自动抽取进行了实验研究,取得良好效果.  相似文献   

6.
基于子词的双层CRFs中文分词   总被引:3,自引:0,他引:3  
提出了基于子词的双层CRFs(conditional random fields)中文分词方法,旨在解决中文分词中切分歧义与未登录词的问题.该方法是建立在基于子词的序列标注模型上.方法第1层利用基于字CRFs模型来识别待测语料中的子词,这样做是为了减少子词的跨越标记错误和增加子词识别的精确率;第2层利用CRFs模型学习基于子词的序列标注,对第1层的输出进行测试,进而得到分词结果.在2006年SIGHAN Bakeoff的中文简体语料上进行了测试,包括UPUC和MSRA语料,分别在F值上达到了93.3%和96.1%的精度.实验表明,基于子词的双层CRFs模型能够更加有效地利用子词来提高中文分词的精度.  相似文献   

7.
一种基于语境的中文分词方法研究   总被引:4,自引:0,他引:4  
汉语不同于英语,词之间没有间隔标记.而汉语分词是文本分析的第一步,且存在歧义切分,因此分词问题成为汉语分析的首要难题,通过中文切分过程的本质分析,推导并提出基于马尔可夫链的语境中文切分理论.进而提出一种语境中文分词方法.该方法建立在词法和句法基础上,从语境角度分析歧义字段,提高分词准确率.  相似文献   

8.
基于词典和词频的中文分词方法   总被引:1,自引:0,他引:1  
汉语分词是中文信息处理的前提和基础.由于中文句子中,词与词之间没有明显的分隔标志,且存在多音多义词,因此不可避免的存在切分歧义.汉语分词已成为中文信息处理的"瓶颈".本文通过使用带有词频的词典,采用逐词分解实现了中文自动分词,并使用词频计算、歧义消除等方法提高了分词的准确率.  相似文献   

9.
面向信息检索的自适应中文分词系统   总被引:16,自引:0,他引:16  
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势.  相似文献   

10.
汉语文本中交集型切分歧义的分类处理   总被引:2,自引:0,他引:2  
自动分词是中文信息处理的基本问题,交集型歧义字段的切分又是中文分词的难点.本文把交集型歧义字段按其宏结构分类,再依据本文提出的4条切分原则,使用歧义字段的结构信息和语法规则对不同类型的交集字段分别处理,提高了分词的准确性.该分词方法已作为中文网页索引和检索工具被用于网络搜索引擎中.实验效果表明,这一分词系统能够处理某些其它分词系统不能正确划分的实例.  相似文献   

11.
12.
刘伟 《微计算机信息》2006,22(16):212-213
本文对于金属切削这一生产过程中所出现的不稳定问题,利用频率特性法中的奈氏判据,对其进行分析,从而找出消除自激振荡和达到切削过程绝对稳定的条件  相似文献   

13.
人体测量学并不是现代社会的产物。有着很长发展历史的人体比例理论中就包含了现代人体测量学的基本内容,尽管其还不够系统完整,但至少说明了在艺术创作中诞生的人体比例理论对现代人体测量学的影响。并随着时间的推移而不断的完善发展,为现代人体测量学的系统提出奠定了坚实的基础。  相似文献   

14.
目的:解决在FLASH中导入声音的问题.方法:对FLASH不支持的声音格式采取音频压缩的方法.结果:可成功将压缩后的声音文件导入到FLASH中.结论:在FLASH中使用声音可以使FLASH动画具有良好的动画效果.  相似文献   

15.
 The paper questions the ability of current university systems to respond appropriately to the complex demands of an Information Economy. It argues that new relationships between creative subjects and technology require new thinking about the nature and purpose of universities per se. In particular, attention is drawn to the growing involvement of the private sector in higher education. It is argued that it may not be appropriate to think of the `university of the future' in terms of current public sector and quasi public sector institutions, but rather in terms of an emporium, based on an international trade in educational services, and with the `University' as we now understand it occupying the functions of licensing, quality assurance and cultural custodianship. Accepted: 25 June 2002  相似文献   

16.
虚拟化技术是当今服务器技术的一个主流方向,也是一项在计算机领域具有革命性意义的技术.作为x86架构体系下虚拟化技术的领军者-VMware,在技术上有其独到之处.研究VMware的技术与应用,对探知其优秀的技术特点,了解其成熟的产品体系有着现实意义.  相似文献   

17.
All titanium alloys are highly reactive in the molten condition and so are usually melted in a water-cooled copper crucible to avoid contamination using processes such as Induction Skull Melting (ISM). These provide only limited superheat which, coupled with the surface turbulence inherent in most conventional mould filling processes, results in entrainment defects such as bubbles in the castings. To overcome these problems, a novel tilt-casting process has been developed in which the mould is attached directly to the ISM crucible holding the melt and the two are then rotated together to achieve a tranquil transfer of the metal into the mould. From the modelling point of view, this process involves complex three-phase flow, heat transfer and solidification. In this paper, the development of a numerical model of the tilt-casting process is presented featuring several novel algorithm developments introduced into a general CFD package (PHYSICA) to model the complex dynamic interaction of the liquid metal and melting atmosphere. These developments relate to the front tracking and heat transfer representations and to a casting-specific adaptation of the turbulence model to account for an advancing solid front. Calculations have been performed for a 0.4 m long turbine blade cast in a titanium aluminide alloy using different mould designs. It is shown that the feeder/basin configuration has a crucial influence on the casting quality. The computational results are validated against actual castings and are used to support an experimental programme. Although fluid flow and heat transfer are inseparable in a casting, the emphasis in this paper will be on the fluid dynamics of mould filling and its influence on cast quality rather than heat transfer and solidification which has been reported elsewhere.  相似文献   

18.
从品牌战略管理的高度出发,阐述了品牌传播符号语意的重要作用、常用方法以及要注意的问题,并以哈雷摩托为例进行了分析。  相似文献   

19.
李学良  朱志刚 《微计算机信息》2004,20(11):100-101,117
本文通过计量工作中用对等网实现多台微机电子秤的互联,实现数据的自动采集和共享,阐述了系统的硬件构成及软件设计,系统具有计量准确、快速、技术先进等特点,可大大提高工作效率,对企业实现计量管理网络化将起到有益的帮助。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号