首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
基于依存分析和错误驱动的中文时间表达式识别   总被引:2,自引:1,他引:2  
时间表达式识别是进行时间表达式归一化的基础,其识别结果的好坏直接影响归一化的效果。本文提出一种基于依存分析和错误驱动识别中文时间表达式的新方法。首先以时间触发词为切入点,据依存关系递归地识别时间表达式,大大地提高了识别效果;然后,采用错误驱动学习来进一步增强识别效果,根据错误识别结果和人工标注的差异自动地获取和改进规则,使系统的性能又提高了近3.5%。最终在封闭测试集和开放测试集上,F1值达到了76.38%和76.57%。  相似文献   

2.
基于论坛语料识别中文未登录词的方法   总被引:2,自引:1,他引:1  
为解决中文分词中未登录词识别效率低的问题,提出了基于论坛语料识别中文未登录词的新方法.利用网络蜘蛛下载论坛网页构建一个语料库,并对该语料库进行周期性的更新以获取具备较强时效性的语料;利用构造出的新统计量MD(由Mutual Information函数和Duplicated Combination Frequency函数构造)对语料库进行分词产生候选词表;最后通过对比候选词表与原始词表发现未登录词,并将识别出的未登陆词扩充到词库中.实验结果表明,该方法可以有效提高未登录词的识别效率.  相似文献   

3.
某些“基数词+时间单位词”组成的中文时间表达式在不同语境中可能表现为时点式,也可能表现为时段式。为自动判定中文时间表达式的类型,提出一种基于依存分析的判定方法。该方法首先借助依存分析考察中文时间表达式在句中所受的句法约束,然后将这些约束转化为具有可计算性的依存规则,最后利用依存规则对中文时间表达式的类型进行判定。实验结果显示,在此方法中,时间表达式确认的正确率、召回率、F值分别达到82.3%、88.1%和85.1%;时间表达式类型判定的正确率、召回率、F值分别达到77.1%、82.5%和79.7%。  相似文献   

4.
极性情感词是准确分析维吾尔文倾向性的基础资源。该文在前期构建的维吾尔语褒贬情感词典基础上进行网络情感词的自动扩展研究。首先分析维吾尔语情感表达的语言特征,总结了连词、程度副词与情感词的搭配规律,并基于此规律设计从情感语料库中获取候选情感词的算法,形成候选情感词库;最后再利用维吾尔语连词的特性,结合已创建的情感词典和维吾尔语反义词词典,以互联网作为超大规模语料库,设计基于搜索引擎的情感词极性判别算法,根据算法得分判别候选情感词的极性,再将其扩展到已构建的褒贬情感词库。实验结果表明,与扩展前的情感词库相比,使用互联网文本语料扩展后的情感词库后进行维吾尔语句子倾向性测评的准确率和召回率均有明显提高。  相似文献   

5.
为提高维吾尔文网络内容查询的扩展性能,提出一种将维语同义词和互联网资源相结合的扩展词构建算法。利用维吾尔语同义词词典、近义词词典和反义词词典等建立基本候选词库,将互联网作为超大规模语料库,以搜索引擎为工具,使用改进的点互信息对基本扩展词进行相似度评价,选取前N个词形成候选扩展词库1,对包含关键词的互联网语料,基于局部共现和点互信息分析,构建候选扩展词库2,对上述2 种候选扩展词库加权求和,按顺序选择部分词为扩展词。通过搜索引擎实现扩展查询验证,结果表明,与常规查询和同义词查询扩展算法相比,该算法能明显提高查询的准确率。  相似文献   

6.
中文分词是中文自然语言处理的重要任务, 其目前存在的一个重大瓶颈是未登录词识别问题. 该文提出一种非监督的基于改进PMI和最小邻接熵结合策略的未登录词识别方法. 滤除文本中无关识别的标点符号和特殊字符后, 此方法先运用改进PMI算法识别出文本中凝聚程度较强的字符串, 并通过停用词词表和核心词库的筛选过滤, 得到候选未登录词; 然后, 计算候选未登录词的最小邻接熵, 并依据词频-最小邻接熵判定阈值, 确定出文本中的未登录词. 通过理论及实验分析, 此方法对不同的文本, 在不需要长时间学习训练调整参数的情况下, 即可生成个性化的未登录词词典, 应用于中文分词系统后, 其分词正确率、召回率分别达到81.49%、80.30%.  相似文献   

7.
本文基于统计和规则提出一种中文识别方法。利用统计信息得到候选中文姓名,而后利用姓名前后的指界词、称谓词等相关信息从候选中文姓名中进行筛选,完成识别。实验表明该方法的正确率和召回率比较高,并且由于中文姓名在未登录词中占有很大比例,本文方法可以帮助进一步提高汉语自动分词的识别效果。  相似文献   

8.
结合规则与语义的中文人称代词指代消解   总被引:1,自引:1,他引:0  
指代消解是一种为了确定文章中出现的指代词与前文中出现的内容是否为同一事物的技术,在海量信息文本智能处理中具有重要的作用,而人称代词在各种指代词集合中占有相当一部分比例。本文采用规则与语义相结合的方法对中文人称代词进行指代消解,在基础的语法过滤规则之上新增同位语规则过滤指代词的候选消解项;提出更精确的同义词距离计算方法,利用同义词词林和知网对人称代词的关联词与候选先行词的关联词进行语义关系计算,选择关联度最高的候选先行词作为最终的指代结果。通 过不同方法的对比实验和在真实语料数据集上的实验表明,本文所提方法获得了较好的效果。  相似文献   

9.
自动构建时间基元规则库的中文时间表达式识别   总被引:1,自引:0,他引:1  
该文提出一种基于正则文法的时间表达式识别算法 它基于“时间基元”进行规则构建,提高了时间表达式识别的召回率;同时使用基于错误驱动思想的规则剪枝算法,削减了从训练语料带来的噪声,提高了识别的正确率,两者搭配有效提高了系统整体性能。在ACE07中文语料上的实验结果显著超过了现有水平,F-score达到89.9%。该文提出的算法具有很好的通用性和扩展性,加以改进将可以有更广泛的应用。  相似文献   

10.
中文新词识别技术综述   总被引:8,自引:4,他引:4  
新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因此任何相邻字符都有成词的可能性,这给新词提取过滤带来了很大困难;由于没有先验知识和统计数据,新词词性猜测一直是中文词性标注的技术瓶颈。详细分析了中文新词识别技术的研究现状,重点讨论了候选新词提取和词性猜测的研究方法与存在的主要问题,最后对新词识别研究方向进行了展望。  相似文献   

11.
数学公式识别系统:MatheReader   总被引:9,自引:0,他引:9  
靳简明  江红英  王庆人 《计算机学报》2006,29(11):2018-2026
数学公式广泛存在于各类文献之中,但是公式的识别远比文字段落的识别困难.义章介绍了一个数学公式图像识别系统MatheReader,重点阐述了其在公式定位及公式分析方面的技术方案.在公式定伉方面,抽取版式特征,采用Parzen分类器区分独立公式和普通文字行,在普通文字行内检测二维结构定位内嵌公式.在公式分析方面,定义十一种基本公式类型,并用产生式规则限定每类公式的唯一分解方法,提出先识别公式类型,然后分解为子表达式的公式分析方法.和已有系统比较,MatheReader的功能更加强大,能够处理的公式更加丰富.  相似文献   

12.
为了解决利用主题词表构建的本体在描述上过于简单的问题,提出了一种优化主题词本体的框架.对主题词本体进行本体解析,在此基础上,对已有的相似度计算公式进行修改,给出了一种适合主题词本体的综合的相似度计算公式,并制订了优化主题词本体的规则,设计了相应的算法,将优化主题词本体功能发布成了语义Web服务.该方法弥补了主题词本体在描述上的不足,实验结果表明了该方法的可行性和有效性.  相似文献   

13.
Face alive icon     
In this paper, we propose a methodology to synthesize facial expressions from photographs for devices with limited processing power, network bandwidth and display area, which is referred as “LLL” environment. The facial images are reduced to small-sized face alive icons (FAI). Expressions are decomposed into the expression-unrelated facial features and the expression-related expressional features. As a result, the common features can be identified and reused across expressions using a discrete model constructed from the statistical analysis on training dataset. Semantic synthesis rules are introduced to reveal the inner relations of expressions. Verified by the experimental prototype system and usability study, the approach can produce acceptable facial expression images utilizing much less computing, network and storage resource than the traditional approaches.  相似文献   

14.
Designing Triggers with Trigger-By-Example   总被引:1,自引:0,他引:1  
One of the obstacles that hinder database trigger systems from their wide deployment is the lack of tools that aid users in creating trigger rules. Similar to understanding and specifying database queries in SQL3, it is difficult to visualize the meaning of trigger rules. Furthermore, it is even more difficult to write trigger rules using such text-based trigger rule languages as SQL3. In this paper, we propose TBE (Trigger-By-Example) to remedy such problems in writing trigger rules visually by using QBE (Query-By-Example) ideas. TBE is a visual trigger rule composition system that helps the users understand and specify active database triggers. TBE retains benefits of QBE while extending features to support triggers. Hence, TBE is a useful tool for novice users to create simple triggers in a visual and intuitive manner. Further, since TBE is designed to hide the details of underlying trigger systems from users, it can be used as a universal trigger interface.  相似文献   

15.
安全苛刻系统测试语言中的测试设备协同语句   总被引:1,自引:0,他引:1  
安全苛刻系统的可信性需求迫切,支持可信性评估的数据主要来自于测试.为了保证测试数据的可靠性和正确性,特别是对安全苛刻系统这类复杂系统,手工测试实际不可行.研发测试语言是实现自动化测试的有效途径,也是安全苛刻系统自动化测试发展的必然趋势.针对安全苛刻系统通用测试语言应独立于具体设备包括被测安全苛刻系统、测试设备的应用需求,对安全苛刻系统测试中的测试设备协同语句展开研究.针对安全苛刻系统测试中测试设备协同任务中的高阶性、实时性等特点,通过给出测试语言中测试设备协同相关类型、设备协同表达式,定义测试设备协同语句,并通过设备协同表达式求值定义设备协同语句的操作语义规则,最后对语句的正确性给出相关证明,从而支持安全苛刻系统测试过程中测试设备协同过程的动态性和开放性,支持安全苛刻系统测试语言的通用性.  相似文献   

16.
Automated subject indexing and the coordination of indexing with natural language search interfaces could provide solutions to some of the information retrieval problems facing the medical field today. This paper describes the construction of such an interface using semantic net expansion and a clinical neuroscience thesaurus, which provided a specialized vocabulary for use in both automated indexing of MEDLINE articles and an "intelligent" front-end for database searching. Though reviewed by a domain expert, the thesaurus was successfully built by nonexperts utilizing a set of rules. We report on testing thesaurus content and semantic net accuracy using a database of selected MEDLINE article abstracts.  相似文献   

17.
Face localization, feature extraction, and modeling are the major issues in automatic facial expression recognition. In this paper, a method for facial expression recognition is proposed. A face is located by extracting the head contour points using the motion information. A rectangular bounding box is fitted for the face region using those extracted contour points. Among the facial features, eyes are the most prominent features used for determining the size of a face. Hence eyes are located and the visual features of a face are extracted based on the locations of eyes. The visual features are modeled using support vector machine (SVM) for facial expression recognition. The SVM finds an optimal hyperplane to distinguish different facial expressions with an accuracy of 98.5%.  相似文献   

18.
为实现中文文本的准确分类,提出一种基于词库匹配的分类方法。在测试集中采用向量空间模型进行特征表达,用基于词逆向文档频率(TF-IDF)的主成分分析法计算权值,筛选并建立47个行业的索引词库,然后根据与索引词库的余弦相似度判断文本行业类别,建立自回归积分滑动平均(ARIMA)模型,预测其未来10天发展趋势。实验结果表明,索引词库的平均分类效果指标F值为85.6%,预测模型的平均相对误差为3.41%,证明该分类方法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号